研究課題/領域番号 |
20K11938
|
研究機関 | 熊本大学 |
研究代表者 |
野原 康伸 熊本大学, 大学院先端科学研究部(工), 特任准教授 (30624829)
|
研究分担者 |
松本 晃太郎 久留米大学, 付置研究所, 助教 (60932217)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 機械学習 / 解釈手法 / シャプレー値 / 説明性の定量化 / 変数重要度 |
研究実績の概要 |
近年、深層学習をはじめとする機械学習技術が注目され導入が進められつつあるが、なぜそのような結果が得られたかの説明・解釈性が強く求められている。本研究では、予測器の入力と出力の関係に注目してブラックボックス的な機械学習結果を解釈する手法を開発する。開発手法では、経済学の分野で用いられている「複数人が協同した場合の利益の公平分配方法であるシャプレー値」を応用することで、数千にもおよぶ各説明変数が出力に及ぼす影響を線形和の形で適切に分離し、線形モデル等を前提として構築されている仮説検定や信頼区間といった統計学的な解釈手法をブラックボックスモデルに適用できるようにすることを目的とする。 本年度は、説明変数間に相関がある場合において、シャプレー値による機械学習結果の解釈がどのように変わるかの検討を実施した。まず、シャプレー値によって機械学習モデルをどれだけ正確に解釈できたかという説明性を定量的に評価する手法を提案した。続いて、シャプレー値の定義に立ち戻って、説明変数に相関がある場合における貢献度の定量化を実施した。この結果、相関があっても、機械学習モデルの説明性は低下しないが、説明変数の貢献を正しく分配できないことを定量的に示した。そして、説明変数同士の相関がない場合においては、各説明変数のシャプレー値の分散(標準偏差)が大きい順に、説明変数を選択していくことで、使用できる説明変数の数が制限された場合における説明性を最大化できることを証明した。これまで各変数の重要性を表す指標としてシャプレー値の絶対値の和が広く用いられてきたが、理論的な裏付けはなかった。変数重要度としてシャプレー値の分散を用いることで、説明性を最大化できるという理論的な裏付けを示せた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでの研究結果から、説明変数同士に相関がある場合にシャプレー値による解釈が難しくなることが判明した。このため、当初の予定を変更して、シャプレー値の定義に立ち戻って、説明変数に相関がある場合における貢献度の定量化を実施することとなった。問題点が明確となったことで、説明変数同士の相関がない場合における説明性を最大にする変数選択手法が、証明付きで提案できた。当初想定したものとは異なるが、予想外の研究の進展であり、この成果は国際会議に投稿中である。
|
今後の研究の推進方策 |
説明変数同士に相関がある場合にどのように結果を提示すべきかについて、これまでに開発した変数グループ化を活用しながら、検討を進める。 また、シャプレー値を活用して構築した階層モデルに対して、線形性の前提を基に構築された各種統計的手法の適用を検討する。仮説検定や信頼区間、p値といった統計的解釈手法をどのように修正すればブラックボックスモデルに適用できるかを明らかにする。
|
次年度使用額が生じた理由 |
新型コロナウィルスによる各国の入国制限もかなり緩和され、本年度は国際会議への現地参加を行ったものの、まだ十分な参加ができなかった。本年度はさらに国際会議への参加を増やす予定である。また、研究に利用するGPUについては毎年の向上性能が著しいため、GPUの追加やアップグレード費用等として使用する予定である。
|