2023 Fiscal Year Research-status Report
Construction of an unbiased and synthesizable inorganic database from data-driven
Project/Area Number |
23K16955
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
劉 暢 統計数理研究所, 先端データサイエンス研究系, 特任助教 (30814149)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 機械学習 / 構造予測 / マテリアルズ・インフォマティクス / 合成可能性 |
Outline of Annual Research Achievements |
この研究の目的は、能動学習を用いて、不偏的にバーチャル化合物の化学組成の生成と構造予測を行うことだ。最終的には、提案された化合物に対して安定性評価や物性値の計算を行い、データベースを構築する。この目標を達成するために、1) バーチャル化合物の化学組成の生成器の開発、2) 生成された化学組成の構造予測器の改良が必要だ。特に、構造予測器については、多原子・多元素の複雑系の予測に対応できるよう改良した。一方、バーチャル組成生成器については新たに提案した。この研究は、材料科学における新規材料の発見と既存材料の特性解析を効率化することを目指している。能動学習を用いることで、バーチャル化合物の化学組成と構造を予測し、安定性評価や物性値の計算を通じてデータベースを構築することが可能となる。これにより、従来の第一原理計算や実験手法に比べて、時間とコストを大幅に削減することが期待される。
初年度の目標はバーチャル組成生成の開発と構造予測の改良だった。構造予測器の改良により、多原子・多元素の複雑系予測性能を大幅に向上させた。しかし、バーチャル組成生成に関しては以下の2点に課題が残った。1. Variational Autoencoder (VAE)からサンプリングされた化学組成の多様性が十分ではなく、ほとんどが多元系に拡張されたAnchorに依存していた。2. 組成式内の各原子の比率が整数ではなく、後修正が必要であり、そのため提案組成がモデルの予測からずれてしまった。
初年度の成果として、多原子・多元素の複雑系に対する構造予測性能を向上させたことは、この研究の重要な進展だ。しかし、バーチャル組成生成器の多様性と精度に課題が残っており、今後の研究でこれを解決する必要がある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1. 構造予測器の改良:構造予測器はWyckoff letter (WL)予測を導入することによって、多原子・多元素の複雑系予測性能を大幅に向上させた。WLとは、結晶構造中の原子の位置を記述するための記号であり、対称性に基づく配置を示すものだ。WLを考慮した構造生成は、対称性に従って構造生成ができるため、指定された化学組成のWLを予測できれば、構造予測の探索空間を大幅に削減できる。改良した構造生成器は、想定した用途に対応できたと判断できる。
2. バーチャル組成生成器の課題:バーチャル組成生成器については、予期した機能が発揮できず、主にAnchorをベースにした多元系の生成となった。さらに、生成した化学組成の原子の比率が整数ではなく、後修正が必要になる。原因の一つは、バーチャル組成生成器に使用されたMaterials Project(MP)データセットに帰着できる。MPデータは主に既存の材料データから元素置換などの手法により作られた計算データベースのため、Anchorと類似する化合物の多くは既に元素置換によって得られたもので、ディバーシティに欠ける。また、組成式は記述子としてVAEからサンプリングされるため、逆計算により組成式に直すとき、非整数な原子比になる。このため、逆計算のアルゴリズムの改良が必要だ。
|
Strategy for Future Research Activity |
Google DeepMindは、機械学習と第一原理計算を用いて約380,000個の新規化合物(GNoMEデータセット)を発見したと発表した(DOI: 10.1038/s41586-023-06735-9)。彼らは、低エネルギー(安定)材料を発見するために、既知の結晶に似た構造を持つ候補を作成する構造パイプラインと、化学式に基づいたよりランダムなアプローチを取る組成パイプラインの2つを使用している。これらのパイプラインの出力は、確立された密度汎関数理論(DFT)計算を用いて評価され、その結果はGNoMEデータベースに追加された。この研究の手法は、申請者の研究手法と類似しており、巨大な資金を投入して大量のデータを生産していた。これらの状況を踏まえ、以下のように研究計画を修正する。
1. 探索対象の絞り込み:計算時間と費用を考慮し、本研究の探索対象を全化合物から特定の多元系の相図探索に絞る。系の選択については、専門家と議論して決定する。 2. 言語モデル(LLM)の活用:言語モデル(LLM)を利用して化学組成を提案する可能性を探る。LLMを用いることで、従来の手法では得られなかった新しい化学組成の提案が期待できる。
これらの方策を取り入れることで、効率的かつ効果的に研究を進め、新規材料の発見と特性評価をより迅速に行うことを目指す。
|
Causes of Carryover |
1回アメリカへの海外出張を予定したが,ビザ関連の原因で行けなくなった.その分の予算約500,000円を物品費に上乗せた.残りの約150,000円は次年度スパコン利用料として使う予定である.
|
Research Products
(3 results)