2020 Fiscal Year Annual Research Report
Hierarchical machine learning for small data problems in materials informatics
Project/Area Number |
18K04716
|
Research Institution | National Institute for Materials Science |
Principal Investigator |
小山 幸典 国立研究開発法人物質・材料研究機構, 統合型材料開発・情報基盤部門, 主幹研究員 (20437247)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | マテリアルズ・インフォマティクス / 機械学習 / 多重代入法 / 多重信頼度モデル |
Outline of Annual Research Achievements |
物性を予測する機械学習モデルの構築においてデータ数が少ない「スモールデータ問題」に対応するために、材料データや物性の関係を活用できる機械学習モデルの構築を検討した。平成30年度において、単調な欠測パターンを持つデータセットに対して、化合物記述子から計算コストが低い物性値の推定を下位モデル、化合物記述子と下位モデルの結果から計算コストが高い物性値の推定を上位モデルとし、多重信頼度モデルを用いた機械学習モデルが有効に機能することを確認できた。しかし、現実のデータセットの欠測パターンは必ずしも単調ではなく、モデル構築や適用範囲に課題がある。そこで平成31年度は、非単調な欠測パターンに適用可能であり、かつ、データに質的な上位・下位の概念がなく、データ間に相関があれば適用可能とされている多重代入法を用いた機械学習モデルの構築に取り組んだが、対象データによって推定精度の差が大きかった。 そこで、令和2年度は、対象データがどのような場合に多重代入法が有効かを検討した。欠測パターンに対しては、人工的に欠測を生じさせたデータセットを検討したが、推定精度に明確な傾向は得られなかった。欠測パターンよりもデータセットの特徴の方が推定精度に強く影響していると考えられる。データセットの大きさに関しては、データ数や記述子・物性値の数が多いほど推定精度が高くなる傾向があるが、数が少ない場合は推定精度が低くなったが、多ければ多いほど良いというわけではなかった。これらの結果は機械学習における一般的な傾向と合致する。記述子・物性値間の間に線形相関のような単純な関係が見られる場合は高い推定精度が得られたが、そのような単純な関係が容易に得られない場合の推定精度は低かった。
|