研究課題
近年、深層学習をはじめとする機械学習技術が注目され導入が進められつつあるが、なぜそのような結果が得られたかの説明・解釈性が強く求められている。本研究では、予測器の入力と出力の関係に注目してブラックボックス的な機械学習結果を解釈する手法を開発する。開発手法では、経済学の分野で用いられている「複数人が協同した場合の利益の公平分配方法であるシャプレー値」を応用することで、数千にもおよぶ各説明変数が出力に及ぼす影響を線形和の形で適切に分離し、線形モデル等を前提として構築されている仮説検定や信頼区間といった統計学的な解釈手法をブラックボックスモデルに適用できるようにすることを目的とする。今年度は、機械学習モデルの解釈手法であるSHAPについて、交互作用項との関連について主に検討を進めた。複数の変数の組み合わせによる交互作用は、アウトカムに大きな影響を与えることがあり、機械学習モデルを理解するのに重要である。これまでのSHAP解析では、説明変数単体がアウトカムに与える影響と、説明変数同士の交互作用をまとめて評価していた。SHAP導出アルゴリズムを改良し、説明変数単体がアウトカムに与える影響と説明変数同士の交互作用を分離して機械学習モデルを解釈する手法を提案した。改良手法を九州大学病院の癌コホートデータ(N=29080)に適用し、どのような要因の組み合わせが癌発生リスクに寄与しているのかを解析した。その結果、ビリルビン高値による大腸癌発症リスクの減少は、高齢者ほど特に効果が大きいことが分かった。
3: やや遅れている
これまで機械学習モデルの解釈手法であるSHAPについて、変数重要度の計算方法の改善及び変数グループ化という新たな解析手法を開発し、交互作用項との関係について議論を行った。これらの成果は、国際会議・論文誌にて発表済みである。本年度は類似変数の自動グループ化まで実施する予定であったが、類似変数について様々なパターンがあり、各パターンに応じた対策を実施する必要があることが判明したため、計画に遅延が生じた。
類似変数のパターンについての考察を進め、類似変数の自動グループ化を行うアルゴリズムを開発する。これまでに開発した変数グループ化と合わせることで、当該分野の専門知識がなくても、理解しやすい階層的なモデルを構築することができ、試行錯誤の回数を減らした効率的な解析が可能となる。さらに、マニュアル方式のグループ化もできるようにし、当該解析分野における専門知識を用いたより精緻なモデルを構築可能とする。また、シャプレー値を活用して構築した階層モデルに対して、線形性の前提を基に構築された各種統計的手法の適用を検討する。仮説検定や信頼区間、p値といった統計的解釈手法をどのように修正すればブラックボックスモデルに適用できるかを明らかにする。
国際学会の出張費を計上していたが、新型コロナウィルスの影響により全てオンライン開催となったため、出張費が不要となった。残高についてはGPUについては毎年の向上性能が著しいため、GPUの追加やアップグレード費用等として使用する予定である。また、各国の入国制限も緩和されつつあるため、国際会議への参加も検討している。
すべて 2022 2021
すべて 雑誌論文 (5件) (うち査読あり 5件、 オープンアクセス 2件) 学会発表 (2件) (うち国際学会 1件)
Computer Methods and Programs in Biomedicine
巻: 214 ページ: -
10.1016/j.cmpb.2021.106584
10.1016/j.cmpb.2021.106583
巻: 207 ページ: -
10.1016/j.cmpb.2021.106156
Scientific Reports
巻: 11 ページ: -
10.1038/s41598-021-92442-2
医療情報学
巻: 41 ページ: 29-37