2020 Fiscal Year Research-status Report
Automated prediction system of Hamaker constants based on molecular theory and simulations associated with data science
Project/Area Number |
19K05029
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
本郷 研太 北陸先端科学技術大学院大学, 情報社会基盤研究センター, 准教授 (60405040)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 濡れ性 / ハマカー定数 / リフシッツ理論 / Lorentz-Lorentzの式 / Onsagerの式 / Cauchyの式 / 密度汎関数法 |
Outline of Annual Research Achievements |
ハマカー定数は液体プロセス設計における溶媒の濡れ性解析に必要となる、産業応用上、重要な物性量である。溶媒のハイスループットスクリーニングに利用可能なデータベースは存在せず、プロセス設計は実務者の知見・経験に頼らざるを得ない。本研究は、実験に頼らない溶媒スクリーニングを実施するための、ハマカー定数の汎用的ハイスループット予測モデルを構築する。本研究の予測モデルは、機械学習モデルを基盤とするが、そのモデル構築のための学習データを、分子理論と第一原理計算を融合した独自性の高い計算科学的手法を用いる。具体的には、ハマカー定数算定の巨視的理論であるリフシッツ理論に現れる誘電率中の分光パラメータを種々の分子理論を用いて評価する。分子理論によれば、これらの分光パラメータは、第一原理算定可能な双極子モーメントや分極率などから算定可能である。昨年度は、この物理的予測モデルの構築・検証が完了し、原著論文成果として発表した。本年度は、当該研究により得られた物性データ(化合物と各種物性量の組)を学習データとして、種々の機械学習予測モデルの構築に取り組んだ。検証事項として、(1)機械学習モデルの数値入力として化合物を記述するための特徴量設計、(2)機械学習モデルの選定と性能評価に取り組んだ。得られた結果として、対象物性量に依存して、予測性能に大きな差異が確認されたが、計画通り、特徴量と機械学習モデルの改善指針となるベースラインを確立することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度の段階で「分子理論」と「第一原理計算」を融合した物理的モデルによって学習データ生成の研究基盤が確立できたおかげで、今年度は、マテリアルズ・インフォマティクス研究の中で、ある意味では、最も労力を要する学習データ収集の研究フェーズをクリアしており、本課題の最重要研究基盤となる「機械学習モデル」の開発・設計に集中することができた。今年度は、種々の記述子や機械学習モデルを用いた標準的モデルの構築に取り組み、より高精度な機械学習モデル構築のためのベースラインとしての研究基盤を確立することができた。特に、ハマカー定数算定のリフシッツ理論では、種々の分光パラメータが現れるが、物性量に依存して、機械学習モデルの予測性能に大きな差異が生じることが明らかになった。この点については、研究計画の段階である程度予想していた懸案事項であり、次項で記載するように、次年度以降で特徴量と機械学習モデルの選択・改善に取り組む予定であり、本研究課題は、概ね計画通りに進展している。
|
Strategy for Future Research Activity |
次年度以降は、ハマカー定数予測のデータ駆動型予測モデルの構築に取り組む。具体的には、今年度に構築したベースラインモデルを予測性能の指標に据え、種々の特徴量、及び、機械学習モデルを適用して、単一モデルの範囲内で、系統的な予測性能評価に取り組む。更に、最終的な予測モデルの構築を見据えて、アンサンブル学習器の開発にも着手する。一般に、機械学習予測は内挿的であり、学習データのまばらな領域で予測精度は急激に悪くなる。例えば、エーテル系化合物とアミン系化合物のように分子構造の異なる系は化合物空間で離れた領域に分布しており、単一学習器で両者の統合的記述は難しい。本研究では、予めクラスタリングで分類した化合物群に対して個別に学習器を構築し、各化合物群で要素学習器を準備した後、各々の誤差に応じて荷重した線形和として学習器を構築する。そのため、次年度は、これまでに学習データの生成で対象とした各種化合物に対するクラスタリングを行い、その部分集合データに対する機械学習モデルの構築・予測性能評価も同時並行して行う。
|
Causes of Carryover |
今年度は、コロナ禍の影響で世界的なサプライ・チェーンの停滞が生じたため、今年度後半に導入予定であったクラスター計算機の各種部材が年度内での納入が困難となり、次年度前半にクラスター計算機2式を導入する予定である。今年度の学会発表は、全てオンライン開催となったため、今年度に学会参加の国内旅費として計上していた分は不要となった。コロナ禍の状況次第ではあるが、次年度の秋学会では現地開催での学会も計画されており、次年度での学会参加に伴う旅費として使用する予定である。
|