研究課題/領域番号 |
19K15352
|
研究機関 | 明治大学 |
研究代表者 |
金子 弘昌 明治大学, 理工学部, 専任准教授 (00625171)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | QSPR / QSAR / 予測精度 / モデルの解釈 |
研究実績の概要 |
機械学習を用いて構築した物性予測モデルおよび活性予測モデルにより、分子設計や材料開発の効率化が見込まれる。さらにそのモデルを解釈することによって、物性・活性に関する新たなメカニズムの発見も期待できる。機械学習を活用した物性・活性予測モデル構築手法はこれまで数多く開発されているものの、予測性と解釈性のどちらにも優れたモデル構築手法の開発は発展途上である。これは、予測性と解釈性はトレードオフの関係にあることが原因である。例えば決定木 (DT) による回帰モデルは解釈できる一方で予測精度が低い傾向がある。ランダムフォレスト (RF) はアンサンブル学習法によりDTの予測精度を向上できるが、モデルの解釈は難しくデータセット全体のXの重要度しか計算できない。 そこで本研究では、DTとRF を組合せた手法 DT-RF を提案した。まずデータセットを用いてDTを構築する。このDTモデルは解釈ができる一方で、予測精度は低いと考えられる。そこで、DTモデルにより分割された末端ノードのサンプル群をサブデータセットとして、サブデータセットごとにRFモデルを構築する。これにより局所的な非線形モデルが構築され、予測精度が向上する。さらに、既存のRFモデルではデータセット全体における変数の重要度しか議論できなかったが、提案するRFモデルの変数の重要度により、例えば目的変数の値が大きいサンプル軍における変数の重要度や、目的変数の値が小さいサンプル群における変数の重要度を個別に議論できる。以上のように、提案手法により高い解釈性と高い予測性能を持つ物性・活性予測モデルを構築することができると考えられる。 提案手法の有効性を検証するため、各種化合物データセットや無機超伝導体データセットで、ケーススタディを行い、提案手法の予測精度と解釈性およびその妥当性を検証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
既存のモデルと比較して、モデルの予測精度の向上およびモデルの解釈性の向上を達成したため
|
今後の研究の推進方策 |
昨年度の研究により、決定木とランダムフォレストを組み合わせることで、物性予測モデルおよび活性予測モデルの予測精度の向上、そしてモデルの解釈性の向上を達成した。今後は、データ分布として確率分布を仮定したモデリングにより、説明変数のデータセットと複数の目的変数のデータセットとを合わせて、同時確率分布を計算する。確率分布として正規分布の重ね合わせを仮定することで、expectation-maximizationアルゴリズムにより解を獲得できるだけでなく、高精度に同時確率分布を表現できる。Gaussian mixture modelsを回帰分析に応用することで検討する。 説明変数と目的変数の同時確率分布が得られることで、ベイズの定理および確率の乗法定理により、説明変数が与えられたときの目的変数の事後分布および目的変数が与えられたときの説明変数の事後分布を計算できる。前者が物性予測モデル、後者がモデルの逆解析に対応する。つまり、説明変数もしくは目的変数の値が与えられれば、それを満たすための最も確率の高い目的変数もしくは説明変数の値が得られる。なお同時確率分布では説明変数と目的変数を明示的に分ける必要はなく、目的変数が複数でも全く問題ない。
|
次年度使用額が生じた理由 |
物品購入および旅費それぞれの端数のため 742 円が生じました。次年度の物品購入費として使用いたします。
|