研究課題/領域番号 |
20K22466
|
研究機関 | 京都大学 |
研究代表者 |
熊谷 将也 京都大学, 複合原子力科学研究所, 特定助教 (00881054)
|
研究期間 (年度) |
2020-09-11 – 2022-03-31
|
キーワード | マテリアルズ・インフォマティクス / プロセス・インフォマティクス / 機械学習 / 材料工学 |
研究実績の概要 |
今年度は、1.論文からのプロセス情報取得、および2.構造情報からの物性値予測に関する研究を行った。 1. 論文からのプロセス情報取得に関しては、申請者が独自に開発した「無機材料の実験的物性値データベースStarrydata」に収録されている論文のうち約5,000本の論文PDFの取得およびテキストの抽出を行い、Starrydataの実験的物性値と紐付けたデータセットを作成した。さらに、論文のテキストからプロセス情報(合成条件等)を取得するプログラムを先行研究に基づいて実装し、プロセス情報と実験的物性値を紐付けることに成功した。大規模な実験的物性値にプロセス情報を紐づけたデータセットは、プロセス情報と実験的物性値との関係性を解明する上で重要な役割を果たす。2021年度は、このデータセットを使用してプロセス情報と実験的物性値との関係性の解析や機械学習を行う。 2. 構造情報からの物性値予測に関しては、学習に利用するデータとして第一原理計算データベースMaterialsProjectからX線回折パターンを含む結晶構造情報を約63,000レコード取得した。その取得したX線回折パターンを入力とし、結晶構造情報や体積弾性率などの基礎物性を学習・予測対象とする機械学習モデルを構築した。特にX線回折パターンは、回折角度と回折強度の情報を抽象化した複数の特徴ベクトルに変換し、予測精度を比較することで、X線回折パターンの最適なベクトル表現を追求した。その上、機械学習手法にはランダムフォレストをはじめとする解釈性の高い手法を選択し、X線回折パターンと学習対象との関係性を紐解いた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り、1.プロセス情報と実験的物性値を紐付けたデータセットの構築、および2. 構造情報(特にX線回折パターン)からの物性値予測と関係性解明のいずれも順調に進んでいる。プロセス情報の取得については、Elsevier APIによるフルテキスト取得を考えていたが、Elsevierに属していない論文が存在することから、PDFからのテキスト取得に変更することで対応した。年度内に学術論文や学会発表で成果報告するには至らなかったが、2021年度に成果報告できる目処が立っている。
|
今後の研究の推進方策 |
2021年度は当初の計画通り、1. 構造情報(特にX線回折パターン)からの物性値予測と関係性解明の研究を2020年度に引き続いて追求するとともに、2. プロセス情報を紐付けた実験的物性値のデータセットを利用した機械学習や解析を並行して進める。 1. X線回折パターンからの物性値予測に関しては、単純な結晶系予測の場合最大約90%の予測精度が達成できているものの、空間群や基礎物性など問題設定が複雑になるほど予測精度が低くなっていることが現時点で確認できている。そこで2021年度は、原子半径や原子量、電気陰性度などの様々な基礎物性を化学組成に基づいてベクトル化したものを、X線回折パターンと組み合わせることで精度向上を図るとともに、新しく追加した特徴量も含めて構造的観点から関係性の解明を進める。 2. プロセス情報を紐付けた実験的物性値のデータセットを利用した機械学習や解析に関しては、どのようなプロセスが含まれるか等のデータ解析を行った後、解釈性の高い手法で機械学習を適用する。ただし、現在紐付いているプロセスデータは、PDFから抽出したテキストを使用していることから不要な文字列が含まれていることが予想されるため、予測と並行してテキストのクレンジングを随時行うことで対応する。 2020年度は、学術論文や学会発表で成果報告するには至らなかったため、2021年度は2020年度のせいかも含めて国内外の学会等で成果報告を確実に行う。
|