2020 Fiscal Year Research-status Report
A Study on Statistical Interpretation Methods for Machine Learning Results Using Shapley Values
Project/Area Number |
20K11938
|
Research Institution | Kumamoto University |
Principal Investigator |
野原 康伸 熊本大学, 大学院先端科学研究部(工), 特任准教授 (30624829)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 機械学習 / 解釈手法 / シャプレー値 |
Outline of Annual Research Achievements |
近年、深層学習をはじめとする機械学習技術が注目され導入が進められつつあるが、なぜそのような結果が得られたかの説明・解釈性が強く求められている。本研究では、予測器の入力と出力の関係に注目してブラックボックス的な機械学習結果を解釈する手法を開発する。開発手法では、経済学の分野で用いられている「複数人が協同した場合の利益の公平分配方法であるシャプレー値」を応用することで、数千にもおよぶ各説明変数が出力に及ぼす影響を線形和の形で適切に分離し、線形モデル等を前提として構築されている仮説検定や信頼区間といった統計学的な解釈手法をブラックボックスモデルに適用できるようにすることを目的とする。 今年度は、機械学習モデルの解釈手法であるSHAPについて、変数重要度の計算方法の改善、および、変数グループ化という新たな解析手法を開発した。これまで提案されていた変数重要度では、線形モデルで用いられている変数重要度と不整合が出る場合があったが、提案手法により完全に整合性が取れるようになった。また、変数グループ化を用いることで予測モデルの再構築を伴うことなく、複数の説明変数がアウトカムに与える影響を調べることが可能となった。 提案手法を医療実データを用いて構築した機械学習による予測モデルに適用して解釈を行い、従来解釈手法との比較を行った。脳梗塞軽症パスの重症度予測モデルの解析では、A/G比が重症度予測の重要度8位の説明変数として抽出されたほか、変数のグループ化や交互作用項の発見等で従来手法よりモデルの解釈が容易となった。また、複数病院間の診療データに対する予測モデルに対しても提案手法による解釈を行い、寝返り等が長期在院に関連する因子として抽出された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・機械学習モデルの解釈手法であるSHAPについて、変数重要度の計算方法の改善及び変数グループ化という新たな解析手法を開発した。交互作用項の抽出と、類似変数の自動グループ化を可能とし、当該分野の専門知識がなくても、理解しやすい階層的なモデルの自動構築につながる成果と考えられる。この成果は、国際会議で発表を行った他、論文誌に投稿中である。 ・提案手法の医療実データへの適用は当初の計画以上に進展している。本年度は脳梗塞の予後予測モデルや複数病院間の診療データに対する予測モデルに対して提案手法を適用した解析を行った。この成果により、3本の論文が論文誌で採択された。 ・当初予定ではシャプレー値の効率的な計算アルゴリズムの開発を実施する予定であったが、GPUによる高速計算が可能となったため、SHAPの改良と実データへの応用を優先した。効率的な計算アルゴリズムの重要性は当初よりも低下したが、依然として重要なため、次年度以降に繰り下げて実施する予定である。
|
Strategy for Future Research Activity |
今年度開発した変数グループ化という新たな解析手法を応用し、シャプレー値に基づいて、交互作用項の抽出と、類似変数の自動グループ化を行うアルゴリズムを開発する。これにより、当該分野の専門知識がなくても、理解しやすい階層的なモデルを構築することができ、試行錯誤の回数を減らした効率的な解析が可能となる。さらに、マニュアル方式のグループ化もできるようにし、当該解析分野における専門知識を用いたより精緻なモデルを構築可能とする。 また、シャプレー値を活用して構築した階層モデルに対して、線形性の前提を基に構築された各種統計的手法の適用を検討する。仮説検定や信頼区間、p値といった統計的解釈手法をどのように修正すればブラックボックスモデルに適用できるかを明らかにする。
|
Causes of Carryover |
深層学習をはじめとする機械学習の計算を効率的に実施するため、複数枚のGPUを搭載した解析用パソコンを購入する予定であったが、別の研究助成で購入したパソコンで代替できたため購入を取りやめた。また、国際学会の出張費を計上していたが、新型コロナウィルスの影響により全てオンライン開催となったため、出張費が不要となった。 残高については、GPUについては毎年の向上性能が著しいため、GPUの追加やアップグレード費用等として使用する予定である。
|
-
-
-
-
-
[Presentation] Machine Learning for Classification of Postoperative Patient Status Using Standardized Medical Data2020
Author(s)
Takanori Yamashita, Yoshifumi Wakata, Hideki Nakaguma, Yasunobu Nohara, Shinji Hato, Susumu Kawamura, Shuko Muraoka, Masatoshi Sugita, Mihoko Okada, Naoki Nakashima, Hidehisa Soejima
Organizer
11th Biennial Conference of the Asia Pacific Association for Medical Informatics
Int'l Joint Research