2021 Fiscal Year Research-status Report
Automated prediction system of Hamaker constants based on molecular theory and simulations associated with data science
Project/Area Number |
19K05029
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
本郷 研太 北陸先端科学技術大学院大学, 情報社会基盤研究センター, 准教授 (60405040)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 濡れ性 / ハマカー定数 / リフシッツ理論 / Lorentz-Lorentzの式 / Onsagerの式 / Cauchyの式 / 密度汎関数法 |
Outline of Annual Research Achievements |
濡れ性現象は、種々の液相プロセスに関連し、その制御は産業応用上、極めて重要である。濡れ性は、ミクロには溶媒中の構成分子間に働く分子間相互作用に関係しているが、その強度を示す物性量がハマカー定数であり、濡れ性解析の入力パラメータとなる。しかしながら、溶媒のハイスループットスクリーニングの実施に利用可能なハマカー定数のデータベースは構築されておらず、液体プロセス設計は実務担当者のこれまでの知見と経験に限られた範囲での溶媒選択にならざるを得ない。本研究は、ハマカー定数のハイスループット算定を実現するための予測モデルを構築して、実験に依らない溶媒スクリーニング技術を確立することを目的とする。本研究で提案するハマカー定数の予測モデルは、ハイスループット計算を実現するために機械学習モデルを基盤とするが、分子記述子とハマカー定数の直接的な回帰関係を扱うのではなく、分子記述子から分子理論を経由して段階的にハマカー定数の予測モデルを構築していく。具体的には、ハマカー定数の巨視的理論であるリフシッツ理論の表式に現れる種々の分光パラメータを機械学習で予測し、それらを統合してハマカー定数を算定する。昨年度は、分子記述子と物性を直接回帰したベースラインモデルを構築して、提案モデルの性能評価の判定基準を確立した。なお、このベースラインモデルの訓練・テストデータは、初年度に得られた第一原理算定結果を利用しており、今年度に構築した種々の機械学習モデルの訓練・テストデータとして利用する。今年度は、学習済み深層学習をベースとする転移学習モデル、ランダムフォレストなどの非線形回帰モデルを採用して性能評価を行った。得られた結果としては、一部の物性パラメータで改善の余地はあるものの、分子理論に基づく統合結果としてのハマカー定数はベースラインモデルを超えて、精度改善が確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究で提案するハマカー定数予測の機械学習モデルは、分子理論を経由することで、種々の基礎物性量とリフシッツ理論に現れる物性パラメータとの相関関係を明示することができる。このことは、本研究提案の機械学習モデルの解釈性のみならず、その解釈に従えば、モデル改善の方策を示唆する。今年度に得られた結果として、大概の物性パラメータに対して、深層学習の転移学習モデル(10万件のQM9学習データで構築したHOMO-LUMOギャップや双極子モーメントの予測モデルをベースとして、出力層をランダムフォレストに差し替えて再学習を実施)、フィンガープリント記述子を用いたランダムフォレストや勾配ブースティングなどの非線形モデルを学習し、ベースラインモデルよりも優れた性能を与えるモデルを構築できたが、一部の物性パラメータに対する機械学習モデルでは、機械学習モデルや記述子の網羅的組合せを以てしても性能向上を実現できていなかった。このような物性パラメータにつき、学習データに含まれる分子の種類、例えば、エーテル系化合物やアミン系化合物、といった分子種を明示して、性能評価を行ったところ、予測性能の顕著な分子種依存性を明らかすることができた。次年度は、提案モデルの予測性能向上を実現するために、次項に記載するような方策で、特定物性パラメータの予測モデルの再構築に注力する。
|
Strategy for Future Research Activity |
次年度は、本研究で提案する分子理論を援用したハマカー定数の機械学習モデルを完成させる。より具体的には、リフシッツ理論とその表式に現れる各種物性パラメータにたいする分子理論(Lorentz-Lorentzの式、Onsagerの式、及びCauchyの式)を援用して、それらの物性パラメータの機械学習モデルを統合して最終的にハマカー定数を算定する。次年度は、今年度に明らかとなった一部物性パラメータの予測モデルの性能改善を行う。具体的な改善方策としては、機械学習に含まれるハイパーパラメータのファインチューニングのみならず、化合物空間の大域的単一モデルの枠組みを超えて、アンサンブル学習器を開発する。今年度は、その準備として、各種単一モデルの予測性能に対する分子種依存性を明らかにしたので、その結果を踏まえて、予測性の良い「分子種-機械学習モデル」の組を選定し、それらの誤差に応じた線形和として、アンサンブル学習器を構築する。また、本研究の特徴として、分子理論を経由することで、諸物性間の相関関係を明示することで、機械学習モデルの解釈性についても議論することができる。次年度は、このモデル解釈性を踏まえた性能評価を行い、最終的なハマカー定数算定の機械学習モデル(群)の構築を完成させる。
|
Causes of Carryover |
今年度の学会発表は、現地でのハイブリッド開催1件のみで、他はオンライン開催となったため、今年度に学会参加のために計上した国内旅費の大部分が不要となった。コロナ禍の状況次第ではあるが、次年度の秋学会では現地開催での学会も計画されており、また海外渡航についても制限が緩和されている状況のため、次年度での国内外学会参加に伴う旅費として使用する予定である。
|
Research Products
(21 results)