研究課題/領域番号 |
20K19876
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
椿 真史 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80803874)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 密度汎関数理論 / 深層学習 / 転移学習 |
研究実績の概要 |
前年に私が開発した「密度汎関数理論と深層学習の融合モデル」について、その応用先のひとつである転移学習の研究を行った。転移学習は、深層学習だけでは高精度を達成することが難しい、大規模データベースが整備されていない種類のデータに対して有効である。例えば、有機化合物において、高分子のデータは低分子のデータよりも収集することが難しく、そのため、高分子の物性予測の精度はあまり高くない。このような問題を解決する一つの手段が転移学習である。 密度汎関数理論と深層学習の融合モデルは、量子化学計算を高精度かつ高速に近似あるいは予測することができる。私はこのモデルをquantum deep field (QDF) と名付け、13万以上のサンプルを含む低分子の物性データベースを用いて学習した。ここで重要なのは、このQDFモデルが波動関数や電子密度を考慮した物理制約、あるいは帰納バイアスを持つと見なせる点である。これにより、学習データに現れない未知の、サイズが大きく構造が異なるような分子に対しても、適切に転移学習できることが期待される。具体的には、QDFモデルが持つニューラルネットワークの最終層のベクトルが、分子の物性、波動関数、電子密度などの様々な物理情報を圧縮した形で持つため、後続の様々なタスクで汎用的に使うことができる。 本研究実績として、低分子で事前に学習したモデルを高分子へ転移させることで、高分子のバンドギャップを高精度に予測することに成功した。実際に、マテリアルズ・インフォマティクスの分野においてよく用いられる既存の記述子や機械学習モデルよりも、高い精度転移を達成した。これにより、事前学習した QDFが適切に物理(波動関数や電子密度)を捉えていることを示したと同時に、このモデルをさらに汎用的に他の様々な分子物性予測に展開することが期待できる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年に私が開発した「密度汎関数理論と深層学習の融合モデル」について、その応用先のひとつである転移学習の研究が一定の成果を上げ、国際学術誌に論文が掲載されたこともあり、現在までの進捗状況としては順調であると考えている。特に今回の成果は、転移学習の精度が高いだけでなく、機械学習によくある細かいチューニングを必要とする既存手法と比べて、ある程度の理論的な保証もあるため扱いが簡単である。そのため、安心して実応用に使うことができるのも大きな利点だと考えている。 具体的に既存手法では、例えば精度が悪かった際の原因が、学習データのせいか、モデルチューニングのせいか、あるいはまた別の原因かを考え、様々に試行錯誤を繰り返す必要がある。特に深層学習の場合は、そのような試行錯誤が極端に多くなるだけでなく、1回1回の試行錯誤に大量の計算資源と電力、つまり費用が必要となる。 しかし、私が開発したモデルは量子化学に基づくことから、そのようなわずらいが少なく、多額のコストもかからないため、研究をスムーズに進めることができる。このように、量子化学の密度汎関数理論と深層学習との融合モデルは、予測精度の高さなどと言った一側面だけではなく、より客観的に見た場合の研究自体の進め方についても、大きな利点があると考えている。
|
今後の研究の推進方策 |
今後の研究の推進方策として、転移学習は非常に一般的かつ汎用的なアプローチであることから、高分子だけではなく様々な分子や物性の予測問題に展開していくことを考える。 例えば、ある程度データベースが整備されているものとして、創薬や触媒がある。創薬については、データベースの分子を、簡易的な分子動力学シミュレーションのソフトウエアで、すべて3次元座標化する処理をすでに終わらせている。また、触媒については、論文から様々な触媒に関する反応と分子を抽出しており、それについて順次転移学習を適用していくことを考えている。 また、モデル自体の改良も同時並行で進めており、ある程度改良の指針も既に立っている。具体的には、より計算の精度を上げるために、現代の量子化学シミュレーションとほぼ同等の波動関数(基底関数)を用いるように拡張することや、機械学習の教師あり学習だけではなく、様々な物理制約を教師なし学習として実装することで、より密度汎関数理論として正しいモデリングにすることなどを考えており、既に実装を開始している段階である。
|
次年度使用額が生じた理由 |
未だコロナの影響で、国内学会や国際会議はすべてオンライン開催のままとなっており、当初予定していた出張費が余ってしまっている。引き続きこの状況は続くと思われるため、現在はデータベースの整備を企業に外注して、作業を進めている段階である。今後も引き続き有効活用できるデータベースを作り資産としいく計画である。
|