研究課題/領域番号 |
23K16955
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 統計数理研究所 |
研究代表者 |
劉 暢 統計数理研究所, 先端データサイエンス研究系, 特任助教 (30814149)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
|
キーワード | 機械学習 / 構造予測 / マテリアルズ・インフォマティクス / 合成可能性 / 無機材料 / データベース |
研究開始時の研究の概要 |
革新的材料は外挿領域にある.バイアスがあるデータで訓練されたモデルの探索範囲はバイアスによって狭められている.機械学習の本来の力を発揮するために,不偏的かつ多様性のあるデータベースの開発が必須と考えられる.不偏的かつ多様性・合理性のある材料データベースを揃えることは学術基盤を強化することになる.また,本研究は申請者がこれまで開発してきた材料開発専用プラットフォームのXenonPyの更なる拡張として,引き続き材料研究のコミュニティーに無償で提供する.
|
研究実績の概要 |
この研究の目的は、能動学習を用いて、不偏的にバーチャル化合物の化学組成の生成と構造予測を行うことだ。最終的には、提案された化合物に対して安定性評価や物性値の計算を行い、データベースを構築する。この目標を達成するために、1) バーチャル化合物の化学組成の生成器の開発、2) 生成された化学組成の構造予測器の改良が必要だ。特に、構造予測器については、多原子・多元素の複雑系の予測に対応できるよう改良した。一方、バーチャル組成生成器については新たに提案した。この研究は、材料科学における新規材料の発見と既存材料の特性解析を効率化することを目指している。能動学習を用いることで、バーチャル化合物の化学組成と構造を予測し、安定性評価や物性値の計算を通じてデータベースを構築することが可能となる。これにより、従来の第一原理計算や実験手法に比べて、時間とコストを大幅に削減することが期待される。
初年度の目標はバーチャル組成生成の開発と構造予測の改良だった。構造予測器の改良により、多原子・多元素の複雑系予測性能を大幅に向上させた。しかし、バーチャル組成生成に関しては以下の2点に課題が残った。1. Variational Autoencoder (VAE)からサンプリングされた化学組成の多様性が十分ではなく、ほとんどが多元系に拡張されたAnchorに依存していた。2. 組成式内の各原子の比率が整数ではなく、後修正が必要であり、そのため提案組成がモデルの予測からずれてしまった。
初年度の成果として、多原子・多元素の複雑系に対する構造予測性能を向上させたことは、この研究の重要な進展だ。しかし、バーチャル組成生成器の多様性と精度に課題が残っており、今後の研究でこれを解決する必要がある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1. 構造予測器の改良:構造予測器はWyckoff letter (WL)予測を導入することによって、多原子・多元素の複雑系予測性能を大幅に向上させた。WLとは、結晶構造中の原子の位置を記述するための記号であり、対称性に基づく配置を示すものだ。WLを考慮した構造生成は、対称性に従って構造生成ができるため、指定された化学組成のWLを予測できれば、構造予測の探索空間を大幅に削減できる。改良した構造生成器は、想定した用途に対応できたと判断できる。
2. バーチャル組成生成器の課題:バーチャル組成生成器については、予期した機能が発揮できず、主にAnchorをベースにした多元系の生成となった。さらに、生成した化学組成の原子の比率が整数ではなく、後修正が必要になる。原因の一つは、バーチャル組成生成器に使用されたMaterials Project(MP)データセットに帰着できる。MPデータは主に既存の材料データから元素置換などの手法により作られた計算データベースのため、Anchorと類似する化合物の多くは既に元素置換によって得られたもので、ディバーシティに欠ける。また、組成式は記述子としてVAEからサンプリングされるため、逆計算により組成式に直すとき、非整数な原子比になる。このため、逆計算のアルゴリズムの改良が必要だ。
|
今後の研究の推進方策 |
Google DeepMindは、機械学習と第一原理計算を用いて約380,000個の新規化合物(GNoMEデータセット)を発見したと発表した(DOI: 10.1038/s41586-023-06735-9)。彼らは、低エネルギー(安定)材料を発見するために、既知の結晶に似た構造を持つ候補を作成する構造パイプラインと、化学式に基づいたよりランダムなアプローチを取る組成パイプラインの2つを使用している。これらのパイプラインの出力は、確立された密度汎関数理論(DFT)計算を用いて評価され、その結果はGNoMEデータベースに追加された。この研究の手法は、申請者の研究手法と類似しており、巨大な資金を投入して大量のデータを生産していた。これらの状況を踏まえ、以下のように研究計画を修正する。
1. 探索対象の絞り込み:計算時間と費用を考慮し、本研究の探索対象を全化合物から特定の多元系の相図探索に絞る。系の選択については、専門家と議論して決定する。 2. 言語モデル(LLM)の活用:言語モデル(LLM)を利用して化学組成を提案する可能性を探る。LLMを用いることで、従来の手法では得られなかった新しい化学組成の提案が期待できる。
これらの方策を取り入れることで、効率的かつ効果的に研究を進め、新規材料の発見と特性評価をより迅速に行うことを目指す。
|