2019 Fiscal Year Annual Research Report
Discovery of innovative functional materials using state-of-the-art machine learning
Project/Area Number |
19H01132
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
吉田 亮 統計数理研究所, データ科学研究系, 教授 (70401263)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | マテリアルズインフォマティクス / 機械学習 / 分子設計 / 逆合成経路解析 / 転移学習 |
Outline of Annual Research Achievements |
当該年度は,有機分子を対象に所望の特性を有する新物質を探索するための機械学習の手法を開発した.成果の概要は,以下の通りである. (1)PythonオープンソースプラットフォームXenonPyにベイズ推論に基づく分子設計アルゴリズムを実装し,新バージョンをリリースした(Wu et al. Mol Inform. 2020). (2)標的分子の合成経路を探索するベイズ推論アルゴリズムを開発した.合成反応のデータベースには,触媒分子と前駆体化合物及びその生成物に関する膨大な情報が記録されている.このデータを用いて機械翻訳のニューラルネットワークの訓練を行い,任意の反応物に対する生成物の予測モデルを構築した.次に,条件付き確率のベイズ則に従い,この順方向のモデルを反転し,生成物から反応物の予測モデルを導く.最後に,逐次モンテカルロ法を適用し,市販化合物のリストから所望の生成物を導く反応物の組み合わせを探索した.本成果をまとめたプレプリント(Guo et al. arXiv. 2020: 論文投稿中)とPythonのソースコードを公開した. (3)高分子物性データベースPoLyInfoと上述の分子設計アルゴリズムを組み合わせ,高い熱伝導率を持つ新規高分子を開発した(Wu et al. NPJ Comput Mater. 2019).PoLyInfoには,ホモポリマーに限定した場合,室温付近の熱伝導率のデータが28種類しか登録されていない.そこで,大量の学習データを利用できる他の物性を対象に事前学習モデルを構築し,転移学習を用いて熱伝導率の予測を導いた(Yamada et al. ACS Cent Sci. 2019).このモデルを用いて高熱伝導率をターゲットに仮想ライブラリを作製し,その中から三種類の芳香族ポリアミドを合成し,熱伝導率0.41 W/mKに達する高分子を見い出した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で述べた項目(1)は,化学構造の設計を目的とする機械学習アルゴリズムの研究である.本項目については,方法論の数理的基盤,アルゴリズムの基本設計,実装は概ね完了した.実験やシミュレーションから得られた化学構造と特性のデータを用いて,教師あり学習により,化学構造から特性の予測モデルを構築する.これに条件付き確率のベイズ則を適用し,特性から構造の逆方向のモデルを導く.既存化合物のパターンを学習させた確率言語モデルを用いてモンテカルロ計算を行い,逆方向のモデルから仮説構造を発生させ,所望の特性を有する埋蔵物質を発掘する.開発した手法は,XenonPyのモジュールiQSPR-Xとして公開している. 項目(2),iQSPR-Xが提案する候補分子の合成経路を探索する手法の研究である.ベイズ推論を方法論の基盤とする解析手法を構築した.米国特許化合物の合成経路に対して性能検証を実施したところ,1ステップの反応経路の80.3%,2ステップの反応経路の50.0%を予測することができた.現在は,本手法を用いて新規の合成経路を炙り出し,有機合成の専門家によるレビューを行っている. また,項目(3)に示したように,開発手法を用いた実証研究にも着手し,高い熱伝導率を持つ新規高分子の開発に成功した.今後,様々な系に本手法を適用していき,実証フェーズを加速していく.
|
Strategy for Future Research Activity |
研究は概ね順調に進んでいる.当該年度までに完成した手法については,今後は外部プロジェクトと連携しながら,実践・実証フェーズを本格化させていく.方法論の研究については,次年度は以下の二項目を重点的に実施する. (1)合成反応モデルと分子設計アルゴリズムの融合 分子設計の計算では,化学構造から特性の順方向の予測モデルを構築した上で,モンテカルロ法で逆方向のモデルから仮想分子を発生し,所望の物性を有する埋蔵分子を予測する.ここで「研究実績の概要」で述べた項目(1)の合成反応モデルを分子の生成モデルとしてモンテカルロ計算を行う.こうすることで,合成経路探索と分子設計を同時に行うことができる. (2)転移学習の方法論 データ科学の他の応用領域と比べると,材料研究のデータ量は圧倒的に少ない.とりわけ,研究対象が最先端に近づくにつれて,スモールデータの傾向はより顕著になる.スモールデータに対する解決策として,転移学習という方法論の研究を推進する.転移学習では,あるタスクの訓練済みモデルを別のタスクに再利用する.現在の転移学習の方法論の多くは深層学習を軸に構築されている.本研究では,深層学習に特化しない,教師あり学習全般を包含する転移学習の一般的な枠組みを構築する.
|
Research Products
(36 results)
-
-
-
-
-
[Journal Article] Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm2019
Author(s)
Stephen Wu, Yukiko Kondo, Masa-aki Kakimoto, Bin Yang, Hironao Yamada, Isao Kuwajima, Guillaume Lambard, Kenta Hongo, Yibin Xu, Junichiro Shiomi, Christoph Schick, Junko Morikawa,Ryo Yoshida
-
Journal Title
npj Computational Materials
Volume: 5
Pages: 66
DOI
Peer Reviewed / Open Access
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-