研究課題/領域番号 |
22K11949
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 統計数理研究所 |
研究代表者 |
林 慶浩 統計数理研究所, 先端データサイエンス研究系, 助教 (80739029)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | マテリアルズインフォマティクス / 機械学習 / 転移学習 / 分子動力学シミュレーション / 自動計算 / ハイスループット計算 / 分子動力学法 / データベース / 分子動力学計算 / 量子化学計算 / ベイズ最適化 |
研究開始時の研究の概要 |
本研究は,マテリアルズインフォマティクスと呼ばれるデータ科学と物質・材料科学の学際領域を対象とする基盤研究である.データ駆動型の材料設計を高分子材料分野に適用する上で,データベースの少なさが最大の障壁となっている.また,分子シミュレーションを用いた仮想実験によるデータ生成も自動化が難しく未だ実現されていない. そこで本研究では,分子シミュレーションによる高分子物性の全自動計算システムRadonPyを構築し,仮想実験により大量のデータを生成する.さらに,ベイズ最適化に基づく実験計画でシミュレーションによる仮想実験を制御し,所望の特性を有する高分子を自動設計するシステムを構築する.
|
研究実績の概要 |
本研究はデータ科学と材料科学の学際領域であるマテリアルズインフォマティクス(MI)を対象とする基盤技術を創出することを目指す.近年,統計的機械学習に基づくデータ駆動型材料設計の技術が材料研究の様々な分野に急速に導入されている.一方で,高分子材料分野では,実験・シミュレーション共にデータ量が圧倒的に不足しており,データ駆動型アプローチの進展に大幅な遅延が生じている.そこで本研究では,様々な高分子材料に適用可能な分子動力学(MD)シミュレーションの全プロセスを自動化できるオープンソースライブラリ,RadonPyを開発しGitHub上(https://github.com/RadonPy/RadonPy)で公開した.RadonPyは,MD計算ソフトウェアLAMMPSによる高分子物性計算の自動化を支援するPythonライブラリである.このRadonPyを用いて,高分子物性データベースを構築すべく,約80,000種のアモルファス高分子について,熱伝導率や比熱,線膨張係数,屈折率を含む17種類の物性を計算した。MDで計算された物性を実験データと系統的に比較し,計算条件を検証した.また,MDで計算された物性の実験値に対するバイアスは,転移学習と呼ばれる機械学習の方法論によって補正することができた. 加えて,転移学習において、MDデータ数に対する実験値の予測精度のスケーリング則の観測を行った.その結果,理論的に予言されていた通り,データ数のべき乗則に従うスケーリングカーブが観測された. また,物性値の物理的な制御因子を機械学習的な手法で明らかにするために,MDシミュレーションの分子力場パラメータを記述子化したForce Field Descriptor(FFD)を開発した.この記述子と物性値との相関性を評価することにより,高分子の熱伝導率に関する物理化学的な考察を行い論文発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,RadonPyを用いてさらなるデータ生産を行った.17物性の計算を行い,約80,000種のアモルファスポリマーの計算が完了した.このMDシミュレーションデータを事前学習し,PoLyInfoから収集した実験データを用いてsimulation-to-real(Sim2Real)転移学習を行った.このとき,事前学習に使用するMDシミュレーションデータのデータ数を変化させることにより,MDシミュレーションデータ数に対する実験データへの汎化性能を評価することで,Sim2Real転移学習のスケーリング則の数値実験を行った.このSim2Real転移学習のスケーリング則に関しては,理論解析によりべき乗則に従うことが示されている(Mikami et al. arXiv preprint, arXiv:2108.11018 (2021)).本研究における実データを用いた数値実験においても,このべき乗則を観測することに成功した.すなわち,実験データ数が不変であっても,RadonPyによるMDシミュレーションデータをさらに追加していくことで,実験データに対する予測精度が向上していくことが示された. また,物性値の物理的な制御因子を機械学習的な手法で明らかにするために,MDシミュレーションの分子力場パラメータを記述子化したForce Field Descriptor(FFD)を開発した.この力場パラメータは分子によって要素数が異なる集合変数であり,機械学習の入力として用いるためには固定長化する必要がある.そこで,カーネル平均埋め込みとよばれる統計科学の手法を用いて力場パラメータを固定長化し,記述子を構成した.このFFDと物性値との相関性を評価することにより,高分子の熱伝導率に関する物理化学的な知見を得た. これらのことから、おおむね順調に進展していると判断した。
|
今後の研究の推進方策 |
RadonPyを用いたハイスループット計算は今後も継続的に実施し,データ生産を行う.加えてRadonPyの拡張を行い,力学物性などの物性自動計算のプロトコルや,三次元網目構造を有する架橋ポリマーや分岐ポリマーなどの様々なトポロジーを有する高分子骨格の自動計算プロトコルを実装することで,データの多様性を増やす.RadonPyとベイズ最適化を用いて,所望の物性値を有する高分子を設計する「統計的機械学習」の手法を開発する.RadonPyで生成したデータを用いて,構造から物性への順方向の予測モデルを学習する.さらに,モデルの逆問題を解き,候補分子を生成する.ベイズ最適化で物性計算の対象分子を選定し, MD自動計算を用いて外挿領域にデータを追加しながら,モデルの予測可能範囲を段階的に拡大していく.このサイクルを繰り返し,所望の物性値を持つ未踏領域に存在する新規高分子を同定する.
|