2022 Fiscal Year Research-status Report
Establishment of a foundation for polymer material design by integrating data science and molecular simulation
Project/Area Number |
22K11949
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
林 慶浩 統計数理研究所, データ科学研究系, 助教 (80739029)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | マテリアルズインフォマティクス / 分子動力学法 / データベース |
Outline of Annual Research Achievements |
本研究はデータ科学と材料科学の学際領域であるマテリアルズインフォマティクス(MI)を対象とする基盤技術を創出することを目指す.近年,統計的機械学習に基づくデータ駆動型材料設計の技術が材料研究の様々な分野に急速に導入されている.一方で,高分子材料分野では,実験・シミュレーション共にデータ量が圧倒的に不足しており,データ駆動型アプローチの進展に大幅な遅延が生じている.そこで本研究では,様々な高分子材料に適用可能な分子動力学(MD)シミュレーションの全プロセスを自動化できるオープンソースライブラリ,RadonPyを開発しGitHub上(https://github.com/RadonPy/RadonPy)で公開した.RadonPyは,MD計算ソフトウェアLAMMPSによる高分子物性計算の自動化を支援するPythonライブラリである.ポリマーの繰り返し単位の化学構造を入力し,力場の割り当て,初期構造の生成,平衡・非平衡MD計算による物性評価までの全工程を完全に自動化する.このRadonPyを用いて,高分子物性データベースの構築する.1,000骨格以上のアモルファス高分子について,熱伝導率や比熱,線膨張係数,屈折率を含む15種類の物性を計算した。MDで計算された物性を実験データと系統的に比較し,計算条件を検証した.また,MDで計算された物性の実験値に対するバイアスは,転移学習と呼ばれる機械学習の方法論によって補正することができた.ハイスループットなデータ作成により,極めて高い熱伝導率(>0.4 W / m・K)を持つ8つのアモルファス高分子とその熱伝導メカニズムを特定した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は,アモルファスポリマーの15物性の自動計算を実装し,論文の公開(Y. Hayashi, et al. npj Comput. Mater. 8:222 (2022))とRadonPy(https://github.com/RadonPy/RadonPy)のファーストリリースを行った.また,RadonPyを用いて,合成が報告されている約1,000骨格の高分子について,熱伝導率や比熱,線膨張係数,屈折率を含む15種類の物性を計算し,そのデータを公開した.この計算物性データを実験データと系統的に比較することで,自動計算のプロトコルの妥当性の評価を行った.これにより,今後RadonPyを用いたハイスループット計算により,大量のデータ生産を行うことのできる体制が整った. RadonPyを用いたハイスループット計算はその後も継続しており、2022年度中に10,000骨格を超えるデータを生産した.このデータを用いたデータ解析の結果は,以後の論文で発表予定である. また,計算値と実験値の間には誤差が存在したために,計算データから事前学習モデルを構築し,実験データへファインチューニングする転移学習を実施した.その結果,転移学習による推定値は,MD計算値に存在した系統バイアスやばらつきを低減させる結果となった.よって,ハイスループット計算を実現するためにやや精度の落ちるMD計算を行っているが,このデータを転移学習を用いることで実験値とよく整合するように補正できることが示され,大量の物性計算データの創出に道筋を立てることができた. これらのことから、おおむね順調に進展していると判断した。
|
Strategy for Future Research Activity |
RadonPyを用いたハイスループット計算は今後も継続的に実施し,データ生産を行う.このデータを用いて,事前学習に用いた訓練データ数に対する転移学習の汎化誤差のスケーリングを観測する.この結果から,転移学習の事前学習に必要な訓練データ数を推定する. 加えてRadonPyの拡張を行い,力学物性などの物性自動計算のプロトコルや,三次元網目構造を有する架橋ポリマーや分岐ポリマーなどの様々なトポロジーを有する高分子骨格の自動計算プロトコルを実装することで,データの多様性を増やす. RadonPyとベイズ最適化を用いて,所望の物性値を有する高分子を設計する「統計的機械学習」の手法を開発する.RadonPyで生成したデータを用いて,構造から物性への順方向の予測モデルを学習する.さらに,モデルの逆問題を解き,候補分子を生成する.ベイズ最適化で物性計算の対象分子を選定し, MD自動計算を用いて外挿領域にデータを追加しながら,モデルの予測可能範囲を段階的に拡大していく.このサイクルを繰り返し,所望の物性値を持つ未踏領域に存在する新規高分子を同定する. また,MD計算で使用する物理的なパラメータと推定された物性値間の非線形相関性を抽出することで,高熱伝導化に関わる物理的な因子を同定する.MD計算では,力場パラメータと呼ばれる物理的に明確な意味を持つ値により分子の特性を表現する.この力場パラメータから記述子を構成し,機械学習モデルを訓練し,記述子と推定された物性値間について,Maximum Information Coefficient (MIC)などの非線形の相関分析を実施する.
|
Causes of Carryover |
2022年度では主にスーパーコンピューターの使用料として予算を使用する計画であったが,自然科学研究機構計算科学研究センター施設利用B『高分子インフォマティクスのための分子動力学計算による高分子物性データベースの構築と高機能性高分子の探索』に採択され,無償でスーパーコンピューターを利用できることとなった.このため,大幅な次年度使用額が生じることとなった. 2023年度は,ハイスループットシミュレーションは自然科学研究機構計算科学研究センターのスーパーコンピューターなどを利用する予定である.そのため,スーパーコンピューターの使用料として使用を予定していた予算を,機械学習の学習を高速に実施するための高性能なGPUワークステーションの購入に充てる.加えて,論文の英文校正費及び国内外の学会参加費として支出予定である.
|
Research Products
(10 results)