2022 Fiscal Year Research-status Report
Development of foundation of materials informatics for organic solids
Project/Area Number |
22K14747
|
Research Institution | Waseda University |
Principal Investigator |
谷口 卓也 早稲田大学, データ科学センター, 准教授(任期付) (20843907)
|
Project Period (FY) |
2022-04-01 – 2024-03-31
|
Keywords | マテリアルズインフォマティクス / 有機固体 / グラフニューラルネットワーク / 深層学習 / 材料科学 |
Outline of Annual Research Achievements |
有機固体は発光特性や半導体特性、力学特性など多様な機能性をもつ材料群であるが、物性と構造が紐づいたデータベースは非常に限られており、有機固体を対象にしたマテリアルズインフォマティクス(MI)は困難であった。この問題を克服するために、有機固体の融点、ヤング率、構造相転移の有無のデータセットを構築した。融点においてはケンブリッジ結晶構造データベース(CSD)でPython APIを使い、融点の値を取得した。この際、degCやKの単位が混在しており、統一的にKに変換するアルゴリズムを構築した。ヤング率データについては、学術論文からデータを収集することで、約300個のデータセットを構築した。また、構造相転移データについても学術論文から分子構造、結晶構造、転移温度・エンタルピーをまとめることでデータセットを構築した。また、バンドギャップついてはOrganic Materials Database(OMDB)のデータを参照した。 得られたデータセットをもとに、機械学習を実施した。バンドギャップの回帰においては分子グラフと結晶グラフの数理表現を比較し、結晶グラフの方が予測精度が高いことを見出した。また、2つのグラフ表現の比較から、分子構造がバンドギャップに与える影響と分子間相互作用がバンドギャップに与える影響を定量的に評価できた。構造相転移では分類問題として扱い、Positive-Unlabeled学習を行った。これによりUnlabeledデータセットの中に含まれるPositiveの可能性が高い分子を抽出することができ、文献および実験により本スクリーニングが有効であることを見出した。他の物性値についても機械学習による予測の有効性を検証した。 上記で得れられた研究成果は日本結晶学会、日本化学会春季年会などで学会発表した。また、一部成果については論文投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
まずは有機固体の融点、ヤング率、構造相転移の有無のデータセットを構築した。融点においてはケンブリッジ結晶構造データベース(CSD)でPython APIを使い、融点の値を取得した。この際、degCやKの単位が混在しており、統一的にKに変換するアルゴリズムを構築した。ヤング率データについては、学術論文からデータを収集することで、約300個のデータセットを構築した。また、構造相転移データについても学術論文から分子構造、結晶構造、転移温度・エンタルピーをまとめることでデータセットを構築した。また、バンドギャップついてはOrganic Materials Database(OMDB)のデータを参照した。 得られたデータセットをもとに、機械学習を実施した。バンドギャップの回帰においては分子グラフと結晶グラフの数理表現を比較し、結晶グラフの方が予測精度が高いことを見出した。また、2つのグラフ表現の比較から、分子構造がバンドギャップに与える影響と分子間相互作用がバンドギャップに与える影響を定量的に評価できた。構造相転移では分類問題として扱い、Positive-Unlabeled学習を行った。これによりUnlabeledデータセットの中に含まれるPositiveの可能性が高い分子を抽出することができ、文献および実験により本スクリーニングが有効であることを見出した。他の物性値についても機械学習による予測の有効性を検証した。
|
Strategy for Future Research Activity |
構築した機械学習モデルについてはソフトウェア化を進める。具体的にはWebアプリケーションとして利用できるようにし、第三者が簡便に機械学習による推論を実施できるようにする。弾性率や融点予測においても回帰モデルの比較を行い、予測精度の高い回帰モデルを構築する。構造相転移予測においては、これまでは分子構造のみを入力として機械学習を行っていたため、結晶構造を考慮した機械学習も行い、その予測精度と有用性を確認する。 結晶構造をバーチャルスクリーニングするためには結晶構造予測が必要であり、CrySPYなどの構造探索パッケージも活用することで、結晶構造予測ができるように実装する。また、ChatGPTに代表されるような大規模言語モデル(LLM)のPython APIを使うことで、文献から構造化データの自動抽出、プロセス条件を考慮したデータセット構築、機械学習モデルの構築についても検討する。
|
Causes of Carryover |
学会出張時の宿泊費が予想よりも抑えられたため未使用額が生じた。使用計画としては、出張に係る費用および実験消耗品での支出を予定している。
|