精度保証を考慮したオンライン機械学習型軌道非依存密度汎関数理論の開発
Project/Area Number |
21K04998
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 32010:Fundamental physical chemistry-related
|
Research Institution | Waseda University |
Principal Investigator |
清野 淳司 早稲田大学, 理工学術院, 准教授(任期付) (60580371)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | 軌道非依存密度汎関数理論 / オンライン機械学習 / モデル適用領域 / クラスタリング / シンボリック回帰 |
Outline of Research at the Start |
密度汎関数理論(DFT)は電子状態を得るための実用性の高い計算方法であり、現在の化学・物理の分野における電子状態計算の多くの場面で使用される。本研究では、膨大な分子の密度情報データベースとインフォマティクス技術を融合することで、常に学習し汎用性を向上し続けるオンライン機械学習型軌道非依存DFTを確立する。これにより、あらゆる分子に対して(高汎用性)、1 kcal/mol以下の誤差である化学的精度を保証した(高精度)、大規模電子状態計算(高速)が実現できる。さらに、学習したデータに対するモデル適用領域を決定することで、学習の途中段階における未知分子に対する精度保証を与える手法とする。
|
Outline of Annual Research Achievements |
密度汎関数理論(DFT)は電子状態を得るための実用性の高い計算手法であり、今日の化学・物理の分野における電子状態計算の多くの場面で使用される。本研究では膨大な分子の密度情報データベースとインフォマティクス技術を融合することで、常に学習し汎用性を向上し続けるオンライン機械学習型軌道非依存DFTを確立する。これにより、あらゆる分子に対して(高汎用性)、1 kcal/mol以下の誤差である化学的精度を保証した(高精度)、大規模電子状態計算(高速)が実現できる。さらに、学習したデータに対するモデル適用領域を決定することで、学習の途中段階における未知分子に対する精度保証を与える手法とする。 2022年度は、大規模なデータセットに対して機械学習により化学的観点から分類し,所望の分子の計算精度を事前に推定可能な手法を開発した。大規模データセットの一つであるQM9 内の5000分子に含まれる炭素原子に対して、構造的/電子的記述子を用いてクラスタリングを行った。ヘテロ原子の隣接の有無などの化学的性質を反映した36のクラスターを得た。さらに68個のDFT汎関数におけるNMR化学シフト計算の誤差について、クラスターに基づいたデータベースを作成した。この結果、同じ汎関数でもクラスター毎に誤差が異なることが確認された。本手法を活用することで、未知分子に対して、構築されたモデルが適用可能かを化学的観点から判断できる。 また膨大なデータから物理的に意味のある明示的なDFT汎関数を構築することは重要である。2022年度は、DFT汎関数内に含まれる電子密度勾配の項を考慮するために、微分方程式型の数理モデルを自動導出できるようにシンボリック回帰を拡張した。本手法を反応速度論(1次・2次・3次反応、逐次反応、可逆反応など)へと適用し、反応モデルなどの条件を仮定せずに、反応速度式を自動導出できることが示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、化合物データベースからの膨大な分子データを常に学習し続けるオンライン機械学習型OF-DFTを開発することを目標とする。構築の流れとして、①分子データベースから1分子ずつ抽出し、②参照となる電子状態計算を行う。その計算結果から、電子密度情報やエネルギー密度を抽出する。③適用領域を決定して精度保証を行うためのデータを保存する。このデータはオンライン機械学習毎に更新され、学習データ内の重複データは削除される。最後に、④記述子と目的変数の間の関係を機械学習により繋ぎ、汎関数を更新する。この作業を逐次追加される分子データに対して行うことで、汎関数の汎用性を向上させる。 2022年度は③に対して、クラスタリングを利用した誤差データベース作成手法の開発という、別アプローチの研究を遂行した。本手法を使用するモデルに対して適用することで、未知分子に対して、化学的な観点からおおよその精度を把握することができる。これにより信頼性の高い精度保証を与えるシステムとなることが期待できる。さらに④に関して、2021年度に引き続き、物理的に意味のある汎関数の構築を実現するために、シンボリック回帰の拡張を行い、微分を含んだ項を導入できることが確認された。今後は複雑なDFT汎関数を構築できるように、効率的に組み合わせ最適化が可能な、数理最適化手法と融合させることにより、関数探索空間を拡大させる。一方、現在の汎関数構築に用いているオンライン機械学習手法は、複雑な関数形を表現することが困難である。そのためエネルギーの誤差が数kcal/mol程度となり、化学的精度を達成するためには、より複雑な関数形を表現できる手法に拡張することが不可欠である。最終年度ではこの拡張に注力して研究を進める必要がある。
|
Strategy for Future Research Activity |
今後はオンライン機械学習における表現能力の向上のために、オートエンコーダを利用したエクストリーム・ラーニング・マシンを実装・カスタマイズし、運動エネルギー/電子相関エネルギーに適用する。この完成により「現在までの進捗状況」で記載した①~④の一連のサイクルが回るようにシステムを完成させる。その後にモデル適用領域やクラスタリングを利用した誤差データベース作成の手法を適用し、精度保証が可能かどうかを確認する。またシンボリック回帰を用いてDFT汎関数の自動構築を行う。必要に応じて関数探索空間を拡大させるために、最新の数理最適化手法の導入を試みる。
|
Report
(2 results)
Research Products
(13 results)