2019 Fiscal Year Research-status Report
材料インフォマティクスのスモールデータ問題に対する階層的機械学習モデリング
Project/Area Number |
18K04716
|
Research Institution | National Institute for Materials Science |
Principal Investigator |
小山 幸典 国立研究開発法人物質・材料研究機構, 統合型材料開発・情報基盤部門, 主幹研究員 (20437247)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | マテリアルズ・インフォマティクス / 機械学習 / 多重代入法 / 多重信頼度モデル |
Outline of Annual Research Achievements |
物性を予測する機械学習モデルの構築においてデータ数が少ない「スモールデータ問題」に対応するために、材料データや物性の関係を活用できる機械学習モデルの構築を検討した。平成30年度において、化合物記述子から計算コストが低い物性値の推定を下位モデル、化合物記述子と下位モデルの結果から計算コストが高い物性値の推定を上位モデルとし、多重信頼度モデルを用いた機械学習モデルが有効に機能することを確認できた。一方で、多重信頼度モデルは上位のデータが得られている場合は下位のデータが必ず得られているという単調な欠測パターンを前提としている。計算データを下位レベル、実験データを上位レベルとすると、現実のデータセットの欠測パターンは必ずしも単調ではなく、モデル構築や適用範囲に課題があることが明らかになっていた。 そこで、2019年度は、非単調な欠測パターンに適用可能であり、かつ、データに質的な上位・下位の概念がなく、データ間に相関があれば適用可能とされているデータ補完手法を用いた機械学習モデルの構築に取り組んだ。ここでは、実験データを目的変数、化合物記述子と第一原理計算で比較的容易に求めることができる物性値(計算データ)を説明変数とした。機械学習モデルとしては主に多重代入法を検討した。多重代入法にはデータの補間方法や使用するモデルにバリエーションがあるため、様々な組み合わせを検討したところ、実験データと第一原理計算の計算データの双方を満足できる精度で推定可能なケースが得られた。計算データの物性値と実験値の間に明確な物理モデルや経験則があるわけではなく、本研究計画で想定するケース③「Zは物質Xの重要な特徴であるが、全ての物質について既知ではない」に相当する状況と言える。しかし、多重代入法の手法や対象のデータによって推定精度の差が大きいことから、どのような場合に有効か慎重に検討を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度の研究成果に基づいて、機械学習モデルの方針を大きく転換した。当初計画で想定していた多重信頼度モデルは、上位のデータが得られている場合は下位のデータが必ず得られているという単調な欠測パターンを前提としている。化合物記述子や計算データだけを取り扱っている場合はこの単調性を満たすことは容易であり、多重信頼度モデルを用いた報告が既になされている。しかし、実験観測データを上位モデルとする場合、その物質に対して計算が必ずしも可能とは限らないため、大きな制約となる。このことは、特に実験と並行して進める材料開発では本質的な問題であると考え、根幹となる手法を欠測データに対する多重代入法に変更した。 当初の研究計画では目的物性Yと関連物性Zとの関係の階層構造の観点から、「ケース① YとZは本質的に同等だが、評価精度が異なる」、「ケース② YとZ1, Z2, …の関係(物理モデル、経験則)が知られている」、「ケース③ Zは物質Xの重要な特徴であるが、全ての物質について既知ではない」と3段階に分けて研究を進める方針であった。しかし、今回の機械学習モデルの転換の結果、非単調な欠測パターンを取り扱うことからモデル上は物性Y, Zの階層構造はそれほど重要ではなくなり、ケース①、②、③をモデル上は明確に区別することなく対象にできるようになった。このため、機械学習モデルの手法を当初計画から大きく転換する必要が生じたが、十分なリカバリーができたと判断している。
|
Strategy for Future Research Activity |
2019年度は、非単調な欠測パターンに適用可能であり、かつ、データに質的な上位・下位の概念がなく、データ間に相関があれば適用可能とされているデータ補完手法、特に多重代入法を用いた機械学習モデルの構築に取り組んだ。ここでは、実験データを目的変数、化合物記述子と第一原理計算で比較的容易に求めることができる物性値(計算データ)を説明変数としている。多重代入法を採用した結果、モデル上は目的物性と説明変数に用いる物性の間の階層構造はそれほど重要ではなくなり、研究計画で目的物性と関連物性との関係の階層構造の観点から挙げたケース①、②、③を並行して検討している。 多重代入法にはデータの補間方法や使用するモデルにバリエーションがあるため、その組み合わせの検討を進める。これまでの研究成果で満足できる推定精度が得られる場合が見つかっているが、多重代入法の手法や対象のデータによって推定精度の差が大きい。機械学習モデルの改良に取り組むが、研究計画で挙げたケース①、②、③は問題の本質的な困難さに直結していると考えられることから、目的物性と関連物性との関係の階層構造の観点からどのような場合に多重代入法が有効かを慎重に検討する。
|
Causes of Carryover |
平成30年度の研究成果に基づいて機械学習モデルの方針を大きく転換することになった結果、研究の進捗はリカバリーできているものの、成果の対外発表は後ろずれしている。そのため、主に平成30年度に生じた次年度使用額を中心に、2019年度も次年度使用額が発生した。令和2年度は積極的に対外発表を実施する計画である。
|