本研究では信頼度評価を伴った特徴量選択手法の開発を目指している。本年度は昨年度より取り組んでいた実データへの適用事例を論文として発表し、また、高次元データへと手法を拡張する研究を進めた。 特徴量選択とは予測モデルの特徴量の中から予測に重要な特徴量集合を探し出す手法であり、機械学習モデル構築における重要な技術の1つである。特徴量選択は計算コストの削減だけでなく、予測モデルの解釈性を向上させ、知識の抽出にも繋がる。機械学習の応用を進める上では精度だけでなく、機械学習モデルの推論の信頼度を評価することも重要となる。特徴量選択に関しては、選択の信頼度を評価することで、信頼度の低い結果を専門家が誤った方向へ解釈することを防ぐことが可能となる。 先行研究においては、全てのモデル候補を評価する全状態探索の結果から定性的に特徴量選択の不確実性を評価する手法が用いられていた。本研究では、ベイズモデル平均化を用いて全状態探索の結果から定量的に特徴量選択の信頼度を評価する手法に昨年度から取り組んでおり、本年度、蓄電池探索の問題へと適用した研究が査読付き雑誌に掲載された。また数値計算研究の再現性の担保及び本手法の幅広い活用を目指して、同研究で用いたプログラムコードをオープンソースソフトウェアとして公開した。 本年度は非線形高次元特徴量空間における特徴量選択の信頼度評価にも取り組んだ。全状態探索の結果から性能指標に関する頻度分布を取ることで、モデル空間の状態密度(DoS)を評価することが可能となる。高次元空間においては全モデルを評価することが困難となるため、サンプリングによりDoSを推定する手法を開発した。開発手法を結晶構造予測問題に適用することで、先行研究で選ばれたモデルと同程度の性能を持つモデルが多数存在することを示し、先行研究の結果が有意とは言えないことを明らかにした。
|