A Study on Statistical Interpretation Methods for Machine Learning Results Using Shapley Values
Project/Area Number |
20K11938
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kumamoto University |
Principal Investigator |
野原 康伸 熊本大学, 大学院先端科学研究部(工), 特任准教授 (30624829)
|
Co-Investigator(Kenkyū-buntansha) |
松本 晃太郎 久留米大学, 付置研究所, 助教 (60932217)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 機械学習 / 解釈手法 / シャプレー値 / 説明性の定量化 / 変数重要度 / 統計的仮説検定法 / 階層モデル |
Outline of Research at the Start |
近年、深層学習をはじめとする機械学習技術が注目され導入が進められつつあるが、なぜそのような結果が得られたかの説明・解釈性が強く求められている。本研究では、予測器の入力と出力の関係に注目してブラックボックス的な機械学習結果を解釈する手法を開発する。 開発手法では、経済学の分野で用いられている「複数人が協同した場合の利益の公平分配方法であるシャプレー値」を応用することで、数千にもおよぶ各説明変数が出力に及ぼす影響を線形和の形で適切に分離し、線形モデル等を前提として構築されている仮説検定や信頼区間といった統計学的な解釈手法をブラックボックスモデルに適用できるようにする。
|
Outline of Annual Research Achievements |
近年、深層学習をはじめとする機械学習技術が注目され導入が進められつつあるが、なぜそのような結果が得られたかの説明・解釈性が強く求められている。本研究では、予測器の入力と出力の関係に注目してブラックボックス的な機械学習結果を解釈する手法を開発する。開発手法では、経済学の分野で用いられている「複数人が協同した場合の利益の公平分配方法であるシャプレー値」を応用することで、数千にもおよぶ各説明変数が出力に及ぼす影響を線形和の形で適切に分離し、線形モデル等を前提として構築されている仮説検定や信頼区間といった統計学的な解釈手法をブラックボックスモデルに適用できるようにすることを目的とする。 本年度は、説明変数間に相関がある場合において、シャプレー値による機械学習結果の解釈がどのように変わるかの検討を実施した。まず、シャプレー値によって機械学習モデルをどれだけ正確に解釈できたかという説明性を定量的に評価する手法を提案した。続いて、シャプレー値の定義に立ち戻って、説明変数に相関がある場合における貢献度の定量化を実施した。この結果、相関があっても、機械学習モデルの説明性は低下しないが、説明変数の貢献を正しく分配できないことを定量的に示した。そして、説明変数同士の相関がない場合においては、各説明変数のシャプレー値の分散(標準偏差)が大きい順に、説明変数を選択していくことで、使用できる説明変数の数が制限された場合における説明性を最大化できることを証明した。これまで各変数の重要性を表す指標としてシャプレー値の絶対値の和が広く用いられてきたが、理論的な裏付けはなかった。変数重要度としてシャプレー値の分散を用いることで、説明性を最大化できるという理論的な裏付けを示せた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでの研究結果から、説明変数同士に相関がある場合にシャプレー値による解釈が難しくなることが判明した。このため、当初の予定を変更して、シャプレー値の定義に立ち戻って、説明変数に相関がある場合における貢献度の定量化を実施することとなった。問題点が明確となったことで、説明変数同士の相関がない場合における説明性を最大にする変数選択手法が、証明付きで提案できた。当初想定したものとは異なるが、予想外の研究の進展であり、この成果は国際会議に投稿中である。
|
Strategy for Future Research Activity |
説明変数同士に相関がある場合にどのように結果を提示すべきかについて、これまでに開発した変数グループ化を活用しながら、検討を進める。 また、シャプレー値を活用して構築した階層モデルに対して、線形性の前提を基に構築された各種統計的手法の適用を検討する。仮説検定や信頼区間、p値といった統計的解釈手法をどのように修正すればブラックボックスモデルに適用できるかを明らかにする。
|
Report
(3 results)
Research Products
(16 results)
-
-
-
-
[Journal Article] Machine Learning for Classification of Postoperative Patient Status Using Standardized Medical Data2022
Author(s)
Takanori Yamashita, Yoshifumi Wakata, Hideki Nakaguma, Yasunobu Nohara, Shinj Hato, Susumu Kawamura, Shuko Muraoka, Masatoshi Sugita, Mihoko Okada, Naoki Nakashima, Hidehisa Soejima
-
Journal Title
Computer Methods and Programs in Biomedicine
Volume: 214
Pages: 106583-106583
DOI
Related Report
Peer Reviewed / Open Access
-
[Journal Article] Portable Health Clinic for Sustainable Care of Mothers and Newborns in Rural Bangladesh2021
Author(s)
Kimiyo Kikuchi, Yoko Sato, Rieko Izukura, Mariko Nishikitani, Kiyoko Kato, Seiichi Morokuma, Meherun Nessa, Yasunobu Nohara, Fumihiko Yokota, Ashir Ahmed, Rafiqul Islam Maruf, Naoki Nakashima
-
Journal Title
Computer Methods and Programs in Biomedicine
Volume: 207
Pages: 106156-106156
DOI
Related Report
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Machine Learning for Classification of Postoperative Patient Status Using Standardized Medical Data2020
Author(s)
Takanori Yamashita, Yoshifumi Wakata, Hideki Nakaguma, Yasunobu Nohara, Shinji Hato, Susumu Kawamura, Shuko Muraoka, Masatoshi Sugita, Mihoko Okada, Naoki Nakashima, Hidehisa Soejima
Organizer
11th Biennial Conference of the Asia Pacific Association for Medical Informatics
Related Report
Int'l Joint Research