2019 Fiscal Year Research-status Report
Automated prediction system of Hamaker constants based on molecular theory and simulations associated with data science
Project/Area Number |
19K05029
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
本郷 研太 北陸先端科学技術大学院大学, 情報社会基盤研究センター, 准教授 (60405040)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 濡れ性 / ハマカー定数 / Lorentz-Lorentzの式 / Onsagerの式 / Cauchyの式 / 密度汎関数法 |
Outline of Annual Research Achievements |
ハマカー定数は液体プロセス設計における溶媒の濡れ性解析に必要となる、産業応用上、重要な物性量である。溶媒のハイスループットスクリーニングに利用可能なデータベースは存在せず、プロセス設計は実務者の知見・経験に頼らざるを得ない。本研究は、実験に頼らない溶媒スクリーニングを実施するための、ハマカー定数の汎用的ハイスループット予測モデルを構築する。本研究の予測モデルは、機械学習モデルを基盤とするが、そのモデル構築のための学習データを、分子理論と第一原理計算を融合した独自性の高い計算科学的手法を用いる。具体的には、ハマカー定数算定の巨視的理論であるリフシッツ理論に現れる誘電率中の分光パラメータを種々の分子理論を用いて評価する。分子理論によれば、これらの分光パラメータは、第一原理算定可能な双極子モーメントや分極率などから算定可能である。今年度は、学習データ生成の計算科学的研究基盤の確立に取り組んだ。検証事項としては、(1)分子理論に現れる種々の物性量に対する第一原理計算手法の選定と性能評価、及び、(2)ハマカー定数評価における分子理論の妥当性の2点である。これらの検証を行う上で、本提案手法の汎化性能を確保するために、広く対象化合物を選定し、本提案手法の物性予測信頼性(計200種類程度)を検証した。検証事項(1)では、分光パラメータの第一原理算定手法として、B3LYP交換相関汎関数を用いた密度汎関数法を採用し、実験値、及び、高精度量子化学計算を参照値として、比較検証した。当該手法は、当該物性量に対して十分な予測信頼性を持つことが確認されたので、検証事項(2)に取り組んだが、本提案手法によるハマカー定数評価の実験との誤差は5%以内と、溶媒スクリーニングの目的には十分な予測信頼性を確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度の計画は、「第一原理計算と分子理論」を融合したハマカー定数算定スキームの確立にあり、当初の予定通り、学習データ生成エンジンを構築することができた。当該エンジンは、2段階の物性量算定を経て、巨視的Lifshitz理論を用いてハマカー定数を算定する。具体的には、[第1段階]第一原理計算による各種基礎物性量を算定し、[第2段階]第一原理物性量を分子理論に代入してLifshitz理論中の巨視的物性量を算定することで、ハマカー定数を得ている。今年度は、計算対象化合物系として、最終的な溶媒スクリーニングでも利用できるような物性算定スキームを確立するために、典型的な軽分子、会合性化合物、非会合性化合物、ハライドなど、溶媒として利用される化合物系以外にも広く化合物系を選定した。これらの化合物系に対して、各段階で、算定物性量の精度検証(汎化性能検証)を実施し、その結果として、学習データ生成エンジンの汎化性能として十分な性能が担保されていることが確認できた。得られた結果は、J. Phys. Chem. A誌に原著論文として研究成果を報告しており、本研究課題は計画通りに進展している。
|
Strategy for Future Research Activity |
次年度は、今年度得られた「化合物とそれに呼応する物性データセット」を学習データとして、物性予測のための機械学習モデルを構築する。機械学習モデルの選定では、まず化合物空間から数空間への写像である記述子選定が必要となる。本研究では、分子系記述子として汎用的に用いられている標準的なフィンガープリントに加えて、グラフ畳み込みニューラルネットワークなどの最新の記述子を検証する。機械学習モデルとしては、種々の線形回帰・非線形回帰を検証する。具体的なモデル選定としては、SVMなどの標準的なモデルに加えて、ランダムフォレストなどのアンサンブル学習器、また、大量の化合物に対して学習済みのディープラーニングモデルからの転移学習モデルまで幅広い機械学習モデルを考慮する。これら学習モデル構築におけるパラメータ最適化の成否は、学習データ数に依存するため、場合によっては、追加でハマカー定数算定スキームを実行し、学習データの確保に務める。
|
Causes of Carryover |
陳腐化した計算サーバの更新を目的に、2月頃に計算サーバ1式の購入を検討していたが、CPUが海外注文であったため、年度内での納品が困難であることが判明した。そこで、次年度での購入に予定を変更した。
|