Project/Area Number |
23K19980
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
南 俊匠 国立研究開発法人産業技術総合研究所, 量子・AI融合技術ビジネス開発グローバル研究センター, 研究員 (90982835)
|
Project Period (FY) |
2023-08-31 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 転移学習 / 機械学習 / マテリアルズインフォマティクス / 外挿的予測 |
Outline of Research at the Start |
本研究では,データ科学における外挿的予測を実現し,材料研究における革新的な発見を目指す. データ科学は現代社会の発展の中で重要な役割を果たすようになった.特に,自然科学を始めとする様々な研究分野では,データから仮説を導き出し検証するというデータ駆動型研究が注目され,科学技術の更なる発展への原動力として期待されている. しかし,現在のデータ科学は収集されたデータの中での内挿的な予測を前提としている.つまり,既存の方法論だけでは新しい科学的発見にはつながらない.本研究では,機械学習の方法論の一つである転移学習を利用し,外挿的な予測の実現を目指す.さらに,構築した手法を材料研究に実践展開する.
|
Outline of Annual Research Achievements |
2023年度は、転移学習の方法論の構築と材料科学分野における実証研究のための環境整備を実施した。主要な成果の概要は以下の通りである。 (1) 転移学習を用いた外挿的予測の実現のためには、転移元のタスクでは学習できていない要因(転移先ドメイン固有の要因)を転移学習を通して追加で学習する必要がある。2023年度はそのための転移学習手法を構築した。具体的には、転移先固有の情報をデータを用いて補正するアプローチに注目し、その学習手続きを機械学習的に定式化するとともに、それに基づき新たな転移学習アルゴリズムの開発を行った (Minami et al. NeurIPS 2023)。構築したアルゴリズムは、期待予測誤差最小化原理の下で最適な転移学習手法である。さらに、構築した手法の理論解析を行い、学習されたモデルの汎化性能や学習の効率性に対する収束レートを導出し、ドメイン間の関係性と汎化性能との理論的関係性を明らかにした。また、ロボティクス、自然言語処理、材料科学のデータセットを用いて計算実験を行い、手法の有効性を実験的に確認した。 (2) 材料科学分野における実証研究の準備を行った。本研究の実証研究は高分子材料の相溶性予測と相溶化剤の仮想スクリーニングを対象としている。(1)で構築した手法と、特徴抽出法やファインチューニング等の既存の転移学習手法を比較し、使用する手法の検討を行った。また、スクリーニング対象のデータセットを準備するとともに、モデルの訓練から材料スクリーニングまでの一連のワークフローを整備した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1) 外挿性獲得へ向けた転移学習手法の開発はおおむね順調に進んでいるが、当初予定していた実験計画法との融合や、手法を通したドメイン・特徴量の選択はアルゴリズムの中に組み込むことはできなかった。これは、一つのアルゴリズムの中ですべての論点の解決を目指すことで、結果的にアルゴリズム全体が複雑になってしまうことを避ける必要があると判断したためである。これら考慮することのできなかった各論点は、実証実験の際にドメイン知識と組み合わせながら対応していく。 (2) 高分子材料の相溶性予測とスクリーニングは、予定通り実施へ向けた準備を行い、すでに実証実験を開始している。上述した通り、アルゴリズム開発の中に組み込むことのできなかった要素が存在するため、実証実験プロセスの中でそれらを実現していくことを目指す。
|
Strategy for Future Research Activity |
次年度は、計画通り高分子相溶性予測と相溶化材のスクリーニングに対する実証研究を実施する。そのための機械学習モデルの訓練環境と大規模スクリーニングのための環境は整備済みである。また、方法論の中で考慮できなかったドメイン選択や特徴量選択の観点をワークフローの中で実現することを目指す。特に、外部プロジェクト等と連携しつつ、材料科学分野における専門家の協力の下、新規材料探索を実施する。
|