研究課題/領域番号 |
20J21749
|
研究機関 | 東京大学 |
研究代表者 |
大日方 孝輝 東京大学, 理学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2020-04-24 – 2023-03-31
|
キーワード | ベイズ推論 / 特徴量選択 / 全状態探索 / モンテカルロ法 / ベイズモデル平均化 |
研究実績の概要 |
本研究では、全状態探索とベイズモデル平均化に基づいて、信頼度評価を伴った実応用可能な特徴量選択手法の開発を目的としている。本年度は事後確率が解析的に計算可能な状況での手法開発、特徴量数の増加に伴う指数的計算量増加への手法拡張、開発した手法の有効性の検証、の3つを研究目標としていた。 特徴量選択とは、予測モデルの特徴量の中から予測に重要な特徴量集合を探し出すことであり、予測モデルの解釈性向上や、現象の理解を深めることに繋がる。例えば材料科学の分野においては、材料の融点などの物性値を予測対象として特徴量選択が行われ、選択された特徴量から科学的知見の抽出や新規材料探索の実験計画に応用されている。観測データの揺らぎや観測ノイズに起因する特徴量選択の不確かさを評価することは、正しい結果の解釈を目指す上で必須となるが、Lassoを始めとして従来の特徴量選択手法では選択された特徴量集合の不確実さは評価されない。そこで本研究では、全状態探索とベイズモデル平均化の考えに基づき、信頼度評価を伴った特徴量選択手法の開発を進めている。 本年度は事後確率が解析的に計算可能なモデルとしてガウスノイズを仮定した線形回帰モデルを対象とし、手法の開発に取り組んだ。手法の評価として、Lassoなどの代表的な特徴量選択手法との定量的・定性的な比較を実施し、特に観測データ数、観測ノイズ、データ間の相関構造に着目して数値実験を進めた。これらの数値実験条件は材料科学分野においてしばしば課題として挙げられ、応用研究を見据えたものとなる。 また、全状態探索では特徴量の数に対して指数関数的に計算量が増加するため、特徴量の数が20を超えたあたりから現実的な時間内で計算を行うことが難しくなる。そこでモンテカルロ法を用いることで、事後分布の期待値を統計的に不偏な形で推定し、特徴量数が多い状況下への手法開発拡張を研究した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、全状態探索とベイズモデル平均化に基づいて、信頼度評価を伴った実応用可能な特徴量選択手法の開発を目的としており、1年目はモデルの事後確率が解析的に計算可能な状況を対象とし、2年目にモデルの事後確率が解析的に計算できない場合への拡張に取り組み、3年目に実データへの応用に取り組む計画である。 本年度はモデルの事後確率が解析的に計算可能な状況における手法開発、特徴量数の増加に伴う指数的計算量増加への手法拡張、開発した手法の有効性の検証を進められており、計画通り研究を進められている。特徴量数が多い状況への手法拡張にて用いたモンテカルロ法の技術は、2年目に計画している、事後確率の解析計算が不可能な場合への手法拡張においても必要となる技術である。 また手法の有効性検証において取り上げている、観測データ数、観測ノイズ、データ間の相関構造といった数値実験条件は材料科学分野においてしばしば課題として挙げられる条件であり、3年目の実応用研究を見据えて研究を進められている。 一方で上記の研究内容に関する学会発表や論文投稿に関しては進められていないため、次年度は研究発表の取りまとめにも注力する計画である。
|
今後の研究の推進方策 |
本研究では、1年目に取り組んだモデルの事後確率が解析的に計算可能な状況における手法開発を、2年目にはモデルの事後確率が解析的に計算できない場合へと拡張し、3年目には実データへと応用する計画である。 2年目に計画しているモデルの事後確率が解析的に計算できない状況への拡張においては、多変数の数値積分を伴う。信頼度推定を伴った特徴量選択手法の開発を目指すにあたり、モデルの事後確率を統計的に不偏な形で推定したいため、モンテカルロ法を用いることで手法拡張を行う計画である。また、特徴量数が多い状況と組み合わさると、モデルの事後確率の計算と、全状態探索の計算との二重構造でモンテカルロ法を実行する必要があるため、計算量の増加が課題となる。そこで計算時間を抑えるために、計算の並列化及びアルゴリズム面の工夫も視野に入れ、計算時間の削減を試みる。 実データへの応用に取り組む際に、手法の有効性及び妥当性の検証をするには応用先分野の理解を深め、その分野の専門家と手法の適用結果を議論することが必要となってくるため、実応用として考えている材料科学系の学会へ参加することで応用先分野の理解を深める計画である。
|