2021 Fiscal Year Research-status Report
Research on inverse analysis and scientific interpretation of property prediction models
Project/Area Number |
19K15352
|
Research Institution | Meiji University |
Principal Investigator |
金子 弘昌 明治大学, 理工学部, 専任准教授 (00625171)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 適応的実験計画法 / 能動学習 / 直接的逆解析 / 予測精度 / ベイズ最適化 / QSPR / QSAR / プロセス設計 |
Outline of Annual Research Achievements |
分子設計・材料設計・プロセス設計において分子記述子・合成条件・製造条件・プロセス条件などの特徴量 x と物性・活性・特性などの目的変数 y との間で数理モデル y = f(x) を構築し、そのモデルを活用して y の目標値を達成するための x の値の設計、すなわちモデルの逆解析を行う。一般的には x の値の候補を大量にモデル入力して y の値を予測し、予測値が良好な x の値を選択するが、Gaussian Mixture Regression (GMR) による直接的逆解析により、y の目標値をモデルに入力して直接的に x の値を予測できる。 一方で、適応的実験計画法もしくは能動学習により少ない実験回数やコンピュータシミュレーション回数でそれぞれ所望の分子・材料やプロセスを探索することが求められている。ベイズ最適化ではガウス過程回帰モデルからの y の予測値とその分散に基づいて計算される獲得関数の値が最大となる、x の候補が次の実験候補として選択される。しかし、ベイズ最適化では有限個のサンプルの中から候補を選択しているに過ぎず、その中に最適解があるとは限らない。また x に上限値や下限値を決めるためそれらを越える解は得られない。そこでそれらの問題を解決するため、GMR に基づく適応的実験計画法である GMR-based optimization (GMRBO) を提案した。GMRモデルは y の目標値から直接 x の値を推定できるため、x に上限値や下限値を決めることなく最適解を計算できる。y と x との間の非線形関数を用いた実験により、特に x の数が多いときに、GMRBOによってベイズ最適化より劇的に少ない実験回数で y の目標値を達成できること、および既存の y の値を超越する実験結果を得ることが可能であることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
目的変数の目標値を達成する実験条件を直接予測する適応的実験計画法を開発し、効率的な実験計画と高精度な実験条件提案を達成したため
|
Strategy for Future Research Activity |
昨年度は既存のデータセットにおける目的変数 y の値を超越する説明変数 x の値を提案可能な適応的実験計画法を開発した。そこで今後は、構築されたモデル y=f(x) を解釈可能な手法を開発する。 分子設計・材料設計・プロセス設計および制御において、x と y の間で予測精度の高いモデルを構築することだけでなく、現象を説明したりメカニズムを解明したりするため構築されたモデルを解釈することも重要である。線形のモデルであっても x の変数間の多重共線性のため、回帰係数を y に対する x の寄与度とすることは危険である。x 同士が高い相関関係にあるとき、一つの x の回帰係数を正に大きく、もう一方の x の回帰係数を負に大きくすることで、バランスを保とうとする。回帰係数の値を y に対する x の寄与度とできるのは、x の変数間の多重共線性が全くない時か、x が1変数の時のみである。前者は現実的でないことから、本研究では部分的最小二乗法の1成分モデルに着目する。一つの主成分しか使用していないため、回帰係数を y に対する x の寄与度とすることが可能であるが、予測精度の高いモデルを構築することは難しい。そこで本研究では予測精度が高く、かつ解釈可能なモデルを構築できる x の組み合わせを遺伝的アルゴリズムによって選択する。これにより高い予測精度と解釈性を合わせもつモデルを構築可能となる。さらに、化合物や材料のデータセットだけでなく、スペクトルのデータセットやプロセスの時系列データセットにも応用可能な手法とする。
|
Causes of Carryover |
コロナ禍のため旅費として想定より使用しなかったことからそれぞれの端数のため23,646円が生じました。次年度の物品費として使用いたします。
|
Research Products
(30 results)