研究課題/領域番号 |
19K05029
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
本郷 研太 北陸先端科学技術大学院大学, 情報社会基盤研究センター, 准教授 (60405040)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 濡れ性 / ハマカー定数 / リフシッツ理論 / 密度汎関数法 / 機械学習 / 分子記述子 |
研究実績の概要 |
半導体製造の液相プロセスでは、最終的な成膜品質を支配する重要な因子として、基盤上での前駆体溶液の濡れ性が問題となる。濡れ性は、溶媒のハマカー定数を指標として制御されるが、溶媒選択を行うためのハマカー定数のデータベースは構築されていない。そのため、濡れ性制御に関する液体プロセス設計は、実務担当者のこれまでの知見と経験に限られた範囲での溶媒選択にならざるを得ず、必ずしも最適な溶媒選択とはなっていない。本研究は、ハマカー定数のハイスループット算定を実現するための予測モデルを構築して、実験に依らない溶媒スクリーニング技術を開発することを目的とする。これまでの研究成果として、分子記述子とハマカー定数の直接的な回帰モデルの場合、物性予測プロセスのブラックボックス化に由来する解釈困難性に起因して、モデル改善が困難であることが明らかになった。本研究では、この困難性を克服するために、分子理論に基づき、ハマカー定数を構成する種々の光学パラメータの機械学習モデルに還元し、それらを統合することで、直接予測モデルの性能を改善できた。今年度は、決定木分類に基づき、予測性能の向上を妨げるパラメータの同定と、当該光学パラメータで予測精度の悪い結果を与える分子群を同定できたため、なぜ当該パラメータで予測性能を改善できないのか?を明らかにすることができた。現在、これらの知見をまとめ、原著論文の執筆準備を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
マテリアルズ・インフォマティクス(MI)研究分野の最重要課題として、データ駆動型材料探索が挙げられる。そこでは、効率的な探索手法の開発とともに、その探索指標となる物性量を予測する機械学習の予測性能が課題となる。従来、MI研究で対象としてきた物性量は、電子物性や熱物性などの中でも、化合物構造と比較的相関性の高い類のものを対象としていたため、機械学習モデルと化合物記述子を適切に選定して、十分な学習データが利用可能であれば、予測性能の高いモデルが得られていた。ところが、MI研究の成功事例が多数報告され、対象物性の領野が拡大したことで、従前の枠組みだけでは予測性の改善が望めないような物性量の存在も明らかになってきた。ハマカー定数は、そのような物性量の代表例である。このような物性量の高精度予測モデルを構築する際に問題になるのが、機械学習のブラックボックス性に由来するモデル解釈の困難性である。従前の物性予測モデルでは、この点は実用的には問題にならなかった。しかしながら、ハマカー定数を分子記述子から直接予測する機械学習モデルでは予測性能に限界があり、かつ解釈の困難性から、モデル改善の指針を立てることは困難である。計算科学などのように、近似手法の解釈性が得られる場合には、計算コストを度外視すれば、近似理論の改善方策を立案することは割と容易である。本研究は、ハマカー定数の分子理論を援用することで、予測性能の低下要因を同定することができた。更に、ハマカー定数の構成物性量の個別学習モデルを統合することで、大幅な改善ではないものの、予測性能向上を実現することができ、当初の計画通りの研究進捗となっている。
|
今後の研究の推進方策 |
本研究は、分子理論を援用することで、機械学習モデルの「解釈可能性(グレイ/ホワイトボックス化)」と「モデル改善」に関する2つの知見が得られ、ハマカー定数予測の機械学習モデル構築という本研究課題の目標に対して、一定の成果を達成することができた。次年度は、これらの知見と結果を取りまとめて原著論文出版を行うとともに、関連する国内外学会での学会発表を行う。本研究を通じて、一部物性量予測モデルの予測性能改善が課題として挙げられるが、次年度は、新たな追加研究課題として、当該物性の予測モデル改善に取り組む。本研究の枠組みでは、機械学習モデルの入力情報として、2次元分子記述子を採用している。この理由は、3次元分子構造を記述子に設定すると、対象分子の3次元立体構造予測という、計算科学の問題に立ち入る必要性が生じるためである。構造に関する事前情報がない場合、結合角や二面角などの構造パラメータに膨大な自由度が存在するため、第一原理計算に基づき勾配法による構造探索が必要となる。しかしながら、記述子評価に計算科学を持ち込むことは、本研究の目的である「溶媒スクリーニングの高速化」に矛盾する。従って、3次元分子構造に関して過度の計算コストをかけずに、2次元情報から3次元情報への写像を構築する必要がある。低次元情報からの3次元構造の再現では、タンパク質構造予測の分野で、AlphaFold2やRFDiffusionなどのAI技術を参照して、2次元記述子情報から3次元構造予測を行う予定である。
|
次年度使用額が生じた理由 |
コロナ禍の情勢として、移動制限、国際的な半導体供給不足による物品調達の遅延、円安による調達物品価格(計算機・ネットワーク機器等)の高騰が当該年度まで継続していた。その結果、当初参加予定であった国際会議、および、国内学会がオンライン開催となったため、当初計上していた旅費を執行できなかった。また、シミュレーションにかかる計算機部材と通信機器の購入に予想以上の時間を要しており、調達物品の供給が安定するまで購入を見送らざるを得なかった。現在、コロナ禍に起因する移動制限はほぼ撤廃に向かって大きく状況が好転しており、次年度は、当初の研究計画通りに、諸外国への渡航も可能となる見通しであり、次年度での国内外学会参加に伴う旅費として使用する予定である。これまでに余剰となった旅費についても、当該計画にかかる研究打合せを拡充するなどして、次年度での効果的執行を目指す。計算機関連部材についても、当初の計画通り調達・執行する予定である。
|