2018 Fiscal Year Research-status Report
材料インフォマティクスのスモールデータ問題に対する階層的機械学習モデリング
Project/Area Number |
18K04716
|
Research Institution | National Institute for Materials Science |
Principal Investigator |
小山 幸典 国立研究開発法人物質・材料研究機構, 統合型材料開発・情報基盤部門, 主幹研究員 (20437247)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | マテリアルズ・インフォマティクス / 機械学習 / 多重信頼度モデル / 多重代入法 |
Outline of Annual Research Achievements |
物性を予測する機械学習モデルの構築においてデータ数が少ない「スモールデータ問題」に対応するために、材料データや物性の関係に関する事前知識を活用できる多重信頼度モデルを用いた階層的な機械学習モデルの構築を検討した。第一段階として、第一原理計算で求めたバンドギャップを化合物記述子から推定するという問題を設定し、多重信頼度モデルにおいて一般的に用いられているコクリギング法を適用した。下位モデルは、計算コストが低いGGAレベルで求めたバンドギャップを化合物記述子から推定するものとした。一方、上位のモデルでは、計算コストがより高いハイブリッド法で求めたバンドギャップを、化合物記述子と下位モデルの結果から推定した。このような階層モデルであるコクリギング法を用いることで、上位モデルの推定が有効に機能することを確認できた。 このように階層的な機械学習モデルがスモールデータ問題に有効であることが示唆された一方で、モデリング手法の課題が明らかになってきた。コクリギング法では、上位モデルのデータ推定において、下位モデルのデータが欠測していた場合は推定を重ねることができ、これがスモールデータ問題に対して有力な手段となる。しかし、欠測したデータの上位モデルが観測されるということは想定されていない。当初、計算データを下位レベル、実験データを上位レベルとすることを計画していたが、実験で観測されている全てのデータに対して第一原理計算を行なうことが必ずしも可能ではないことから、モデルの再検討を行なった。予備検討段階であるが、多重代入法を用いた推定がコクリギング法と同様に有効であり、かつ、問題となったデータパターンに対応可能であることが確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究計画でケース①としている、本質的に同等の物性だが、評価精度が異なるデータを用いたモデリングに取り組んだ。最初に、化合物記述子から第一原理計算で求めたバンドギャップを推定するという問題を設定し、下位のモデルはGGAレベルで求めたバンドギャップ、上位のモデルはハイブリッド法で求めたバンドギャップとした。多重信頼度モデルにおいて一般的に用いられているコクリギング法を用いて、上位モデルのバンドギャップを推定する機械学習モデルを構築した。既報で報告されていることだが、このような階層モデルにおいてコクリギング法が有効であることが確認できた。 一方、コクリギング法では、上位モデルのデータに対し、下位モデルのデータが観測されていることが前提であることが判明した。このようなデータ構造を「単調なパターン」という。今回取り組んだ計算データの場合は、単調性を満たすことは容易である。しかし、実験観測データを上位モデルとする場合、その物質に対して計算が必ずしも可能とは限らないため、大きな制約となる。例えば、固溶体の実験観測データは多数あるが、その第一原理計算は容易ではない。固溶体の物性を推定し、その観測値を得たとしても、対応する計算データを取得できないために観測値をモデルにフィードバックすることができない。このことは、特に実験と並行して進める材料開発では本質的な問題であると考え、モデルを根幹から変更することにした。調査した結果、欠測データに対する多重代入法が本研究のような問題に適用可能であるとの見込みを得た。予備検討の結果では、計算時間などの負荷を別にすれば、コクリギング法と同等の推定が可能であることを確認している。このようにモデルの根幹的な変更を行なったため、当初想定していた非線形なモデルの適用や、ケース②としている物理モデルや経験則などの関係性の活用に本格的に踏み込むことができなかった。
|
Strategy for Future Research Activity |
多重信頼度モデルで一般的に用いられるコクリギング法の前提である単調な欠測パターンは、現実の材料開発においては大きな制約となると考えられる。そのため、機械学習モデルを根幹的に変更することにした。そこで注目した欠測データに対するデータ補完手法では、非単調な欠測パターンに適用可能なものが提案されている。このデータ補完手法では、データに質的な上位・下位の概念はなく、データ間に相関があれば適用可能とされている。このことは、単に実験観測が上位モデルとして使用可能であるだけでなく、本研究計画でケース②としていた物理モデルや経験則などの関係性を活用したモデリングと相性がよいことを期待させるものである。 そこで、ケース①の主課題として想定していた実験値を上位モデル、計算値を下位モデルとする多重信頼度モデルの検討はこれ以上進めずに、ケース②である物理モデルや経験則などの関係性を活用したモデリングに注力することにする。この物理モデルや経験則で使用する基礎物性に計算値を含める予定であり、実質的にケース①を包含することができる。また、対象とする物性を絞り込んでモデリング手法の確立に注力することで、進捗の遅れを取り戻す予定である。
|
Causes of Carryover |
「現在までの進捗状況」の理由で述べた通り、基盤的な手法として当初想定していたコクリギング法は実際の材料開発には適用できない場合があることが判明した。そこで、コクリギング法で可能なことだけをするように小さくまとめるのではなく、課題を解決するためにモデルを根幹から変更することにした。このため、当初見込んでいた年度内の論文投稿や学会発表が遅れることとなり、次年度使用額が発生した。「今後の研究の推進方策」に述べたように、対象とする物性を絞り込んでモデリング手法の確立に注力することで進捗の遅れを取り戻す計画であり、論文投稿や学会発表は時期が後ろずれしたが、次年度において実施する予定である。
|