研究課題/領域番号 |
18K18942
|
研究機関 | 京都大学 |
研究代表者 |
世古 敦人 京都大学, 工学研究科, 准教授 (10452319)
|
研究期間 (年度) |
2018-06-29 – 2020-03-31
|
キーワード | 推薦システム |
研究実績の概要 |
我々は,無機結晶データベースに機械学習手法の一つである行列分解やテンソル分解による「推薦システム」を応用することで,合成可能な新規無機化合物を効率的に発見する方法を提案した.このような推薦システムによる予測は,候補組成が膨大かつ既知データが少ない場合に有効であるが,既知データの少ない場合には発見効率が格段に落ちる.それは,単純な推薦システムの方法では既知データから化学組成間の類似度を抽出することで,無機化合物が存在する化学組成のルールを見つけ出しているためである.本研究では,既知データの少ない物質群を対象にした新規無機化合物発見を効率化するため,化学組成の事前知識を導入した推薦システムの方法を提案した. ICSD収録の化学組成を既知データとして推薦システムを構築し,候補となる膨大な化学組成から新規化合物の存在確率が高いと予想される化学組成を列挙した.化学組成の事前知識を導入する方法として,上述の推薦システムの方法で用いられている化学組成の離散的表現と,化学組成の元素情報から導出される化学組成記述子を組み合わせることができるFactorization machinesを採用した.さらに,ICDD,SpringerMaterials収録データをテストデータとし,テストデータ組成の発見効率により,推薦システムの予測性能を評価した. 3元系に対する推薦システムの予測性能の既知データ数依存性を示す.すべてのICSD収録データを既知データとして用いた場合,事前知識の有無にかかわらず,760件(25%)程度の化学組成がテストデータに含まれており,事前知識を導入しても予測性能はほぼ変化しない.一方で,既知データを意図的に減らし既知データが少ない状況における推薦システム構築を行った場合,既知データが多い場合と比べ予測性能は下がるものの,事前知識を導入することで予測性能が改善することが確認された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
3元系において,化学組成の事前知識とFactorization machinesを使うことにより,予測性能の高い推薦システムを構築することができた.それに加え,データの少ない特定の元素を含む系についての高効率の予測が可能な推薦システムを構築できた.これらの理由により,当初の計画以上に進展していると考えている.
|
今後の研究の推進方策 |
今後は,データの少ない4元,5元系へと応用する.まず無機化合物データベースICSDの収録組成を既知データとする.次に,組成データを適切に行列化する必要があるため,様々な行列化方法について検討する.行列化された組成データに化学組成記述子を導入し,推薦システムを構築する.得られた推薦システムをもとに約100億通りの化学組成に対する予測を行い,新規化合物の合成可能性が高いと予想される化学組成を列挙する.その後,推薦システムにおいて最も重要である未知データに対する予測性能の検証を行う.本研究では,既知データとして用いたICSD以外のデータベース(ICDD, SpringerMaterials)を検証用データとして用い,検証用データに含まれる化学組成の発見効率を評価することで,未知データに対する推薦システムの予測性能を評価する.予定している行列化方法,化学組成記述子,推薦システムの方法において,それぞれうまくいかない可能性があるが,予定している方法以外にも多くの方法が考えられるため,積極的に導入する.
|
次年度使用額が生じた理由 |
備品購入や旅費などを予定していたが,予備計算の結果を受けて,計画を変更したため,未使用額が発生した.このため,備品購入や成果発表については,2019年度に実施する.
|