研究課題/領域番号 |
20K19866
|
研究機関 | 統計数理研究所 |
研究代表者 |
劉 暢 統計数理研究所, ものづくりデータ科学研究センター, 特任助教 (30814149)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 物性予測 / モデルライブラリー / マテリアルズインフォマティクス / 転移学習 / データベース |
研究実績の概要 |
本研究では,転移学習という機械学習の技術をマテリアルズインフォマティクス(MI)に導入し,材料データ量の少なさ問題(スモールデータの壁)の解消と外挿的物性予測の実現を図る.転移学習は、あるドメインで訓練されたモデルを他のドメインに適用するための機械学習技術で,訓練データが足りないタスクに対してよく使われる訓練手法である.例えば,大量の画像を用いて動物の種類を判定するニューラルネットワークモデルを訓練し,少数の花の画像データを用いて訓練済みモデルを改変して花の種類の分類器を再構築する.人間の学習で例えば,英語の経験がある人は,比較的にドイツ語を容易に学習できることに類似る.したがって,このような推論過程を模倣した転移学習にとって,いかなる方法でモデルのボリューム(経験の量)と多様性(経験の幅)を増加することが本幹になる.
本研究は,大量な訓練済みモデルを有する訓練済みモデルライブラリー(XenonPy.MDL)の開発とそれを活用する仮想材料のスクリーニング・実験検証によって構成されている.XenonPy.MDLは本グループで推進しているMI専用オープンソースプロジェクトXenonPyの一部であり,世界最大の訓練済みモデルライブラリである.既に大量な企業から利用されており,積極的にフィードバックを受け入れて開発を進んでいる.転移学習によるはMI応用の阻害排除は次なる産業革命の一環として高く期待されている.申請者は,XenonPy.MDLの機能開発と保有するモデル量の拡充を初年度の目標にし,概ね計画通り研究・開発を進んでいた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
現時点では,保有するモデル量は14万個を超え,対応できるターゲットは無機,結晶及び高分子材料を渡って,材料の力学的性質,熱電特性,光学特性および局所構造特徴まで,多数カバーしている.まだ,パブリックなインターネット環境でも安全にアクセスできる最新なセキュリティー技術を導入し,次段階に導入する外部コントリビューシステムの基礎を構築した.
大規模なデータベース開発に経験が足りないため,開発進行は当初よりやや遅れている.しかし,長期運用と将来性を考えると,検索機能の拡張とセキュリティー強化は次段階の大規模応用に必要不可欠と考えられる.
|
今後の研究の推進方策 |
研究手法で述べたように,本研究の要は保有するモデルの量と多様性の増加にある.次段階としては,外部コントリビュータ(企業からの参加)を募り,研究開発のスピードを大幅に加速するための仕組みを図る.申請者が所属している統計数理研究所ものづくりデータ科学研究センターは,常時に10社以上の外部企業との共同開発を行なっている.初年度の開発作業により,コントリビュータとの連携に必要な環境等は概ね実装済みである以上,研究活動の拡大を円滑に開始できると予想している.
検証に関しては,現在JST-CREST(熱制御領域)「高分子の熱物性マテリアルズインフォマティクス」(代表:森川淳子(東工大))のチームと連携し,実験による検証を検討する.まだ,本グループが開発している高分子物性自動計算システムRadonPyと連携し,シミュレーションからの自動検証方法を模索する.
|
次年度使用額が生じた理由 |
本研究の手法の一つは転移学習であり,材料開発における数多くの分野から訓練済みモデルを作り,データベース化する.従って,大量の訓練済みモデルと関連データの保存及びオーペンアクセスを維持するために,2021年度に保存用NASサーバーを購入する.その他,成果の発信を目的とする論文掲載費用(オープンアクセス・チャージ等)と英文校正費も助成金を使用する予定である.
|