2021 Fiscal Year Research-status Report
精度保証を考慮したオンライン機械学習型軌道非依存密度汎関数理論の開発
Project/Area Number |
21K04998
|
Research Institution | Waseda University |
Principal Investigator |
清野 淳司 早稲田大学, 理工学術院, 准教授(任期付) (60580371)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 軌道非依存密度汎関数理論 / オンライン機械学習 / モデル適用領域 / シンボリック回帰 |
Outline of Annual Research Achievements |
密度汎関数理論(DFT)は電子状態を得るための実用性の高い計算方法であり、現在の化学・物理の分野における電子状態計算の多くの場面で使用される。本研究では、膨大な分子の密度情報データベースとインフォマティクス技術を融合することで、常に学習し汎用性を向上し続けるオンライン機械学習型軌道非依存DFTを確立する。これにより、あらゆる分子に対して(高汎用性)、1 kcal/mol以下の誤差である化学的精度を保証した(高精度)、大規模電子状態計算(高速)が実現できる。さらに、学習したデータに対するモデル適用(AD)領域を決定することで、学習の途中段階における未知分子に対する精度保証を与える手法とする。 2021年度は、学習に用いる記述子の組を変えてサブモデルを構築し、それらの予測値の標準偏差に基づき AD を判定するJagging法を導入した。H, C, N, O, F, S, Clを含む 30 種の小分子における 6%のグリッド点を学習データとして構築したモデルを、学習に含まれない分子へ適用し、適用領域判定が可能であることを確認した。さらにAD外と判断されたグリッド点を追加してモデルを更新し、数値検証を行った結果、モデル性能の効率的な拡大が可能となった。 また膨大なデータから物理的に意味のある明示的なDFT汎関数を構築することは重要である。本研究では、解釈可能な法則を導き出すインフォマティクス技術であるシンボリック回帰について、既存の手法における関数探索能力を検証した。アトキンス物理化学に記載されている化学法則に対して、遺伝的プログラミング、再帰的LASSO型シンボリック回帰(RLS)、AI-Feynmanの3種を適用した。RLSとAI-Feynmanは多くの化学法則を正しく導出できるが、AI-Feynmanは探索空間が広いため長い計算時間が必要であることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究では、化合物データベースからの膨大な分子データを常に学習し続けるオンライン機械学習型OF-DFTを開発することを目標とする。構築の流れとして、①分子データベースから1分子ずつ抽出し、②参照となる電子状態計算を行う。その計算結果から、電子密度情報やエネルギー密度を抽出する。③適用領域を決定して精度保証を行うためのデータを保存する。このデータはオンライン機械学習毎に更新され、学習データ内の重複データは削除される。最後に、④記述子と目的変数の間の関係を機械学習により繋ぎ、汎関数を更新する。この作業を逐次追加される分子データに対して行うことで、汎関数の汎用性を向上させる。 2021年度は③の適用領域を決定する手法を導入することで、精度保証が可能であることを示した。さらに④に関して、機械学習により予測能の高い化学モデルを構築できる。しかし、このようなモデルの多くは複雑な関数で表現されるため、人間が解釈することが困難である。そこで本研究では、DFTにおける厳密に近く、かつ物理的に意味のある汎関数の構築を実現するために、シンボリック回帰の導入を試みた。現状のシンボリック回帰の表現能力において、複雑なDFT汎関数の構築は現実的ではないことが確認された。しかし、効率的に組み合わせ最適化が可能な、数理最適化手法と融合させることにより、関数探索空間の拡大が見込める。このように③に加えて、研究計画にはなかったシンボリック回帰によるDFT汎関数構築の可能性が示唆され、当初の計画以上に進展している。
|
Strategy for Future Research Activity |
今後は引き続き、オンライン機械学習型OF-DFTの開発を進める。特に「現在までの進捗状況」で記載した①~④の一連のサイクルが回るようにシステムを完成させる。またシンボリック回帰における関数探索空間を拡大させるために、最新の数理最適化手法の導入を試みる。シンボリック回帰を用いた単純な汎関数構築は最近報告されたが(arXiv:2203.02540)、本研究で開発する手法を用いて、実用的な汎関数を開発する。
|
Causes of Carryover |
新型コロナウイルス感染拡大のため、出張がすべてキャンセルされた。またCPU搭載型ワークステーションを導入する予定であったが、2021年度に早稲田大学に異動し、電源工事および空調設備の導入が未完であったため、2022年度の購入に変更した。
|