Quantifying Prediction Uncertainty in Machine Learning
Project/Area Number |
23K20385
|
Project/Area Number (Other) |
20H04239 (2020-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2020-2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
佐藤 一誠 東京大学, 大学院情報理工学系研究科, 教授 (90610155)
|
Co-Investigator(Kenkyū-buntansha) |
三森 隆広 早稲田大学, 理工学術院総合研究所(理工学研究所), 次席研究員 (40760161)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Declined (Fiscal Year 2024)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2024: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2022: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2021: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2020: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
|
Keywords | 機械学習 / 不確実性 / 確率予測 / 深層学習 / 医用画像 / 細胞画像 / 汎化能力 / 学習理論 / PAC Bayes |
Outline of Research at the Start |
本研究課題では,『不確実性の定量化の手法として評価可能なものはどのようなものか』 を考える.言い換えると,人工知能が「自分が知らない」ことを正確に知っている(known unknowns)状況を定式化・定量化するにはどうすればよいかを考えたい.機械学習を実応用する際には,(1)学習データの構築 (2)モデルの学習(パラメータ推定) (3)未知データの予測の3つの過程を行う必要があるため,それぞれの過程において不確実性を考慮した機械学習の基盤技術の開発を目的とする.
|
Outline of Annual Research Achievements |
深層学習の診断予測確率を補正する方法を開発し,機械学習分野の難関国際会議であるAISTATS2021で発表した. 医療の現場では, 症例に関する識別結果よりもその症例である可能性の確率を出力することが重要視される場合がある.例えば今回の研究で具体的に扱った血液検査ではすべての細胞を肉眼で網羅的にチェックすることができないため,異常細胞をその異常確率でリストアップすることは重要である.また,明らかに異常細胞というのが分かるだけでなく,人の判断が分かれるような不確実なデータに対してその不確実性を定量化することが重要である. しかし,深層学習を用いた判断では,その予測確率を出力すると自信過剰な確率予測をすることが知られている.例えば,99%の確率でこの細胞はがん細胞であると判断したのであれば,そのような細胞画像を100枚持ってくれば,その中で判断の誤りは1枚程度であることが望ましいものの実際には,自信過剰に,つまり,多くの判断で高い(極端な)確率を出力をして判断結果を出力してしまう.本研究では,特に医療分野を背景とし,1つのデータに対して複数人が判断をする場合を想定し,その判断の正答率を反映し予測確率を補正するalpha-calibrationを提案した.提案手法は学習済モデルに対して補正することができるので再学習する必要はない.この方法は単なる予測の不確実性だけでなく,人の判断の不一致度も推定することができるため専門家の判断が難しい症例の予測が可能となる.さらに専門家の判断により予測確率を更新することができるためセカンドオピニオンの必要性も定量化可能である.
深層学習における確率的勾配の性質を拡散定理により解析し機械学習の難関国際会議であるICLRで発表した.確率的勾配に現れる摂動の性質に着目し,学習のダイナミクスを解析することで損失関数の非平坦な解への回避に関する性質を解明した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
計画書で上げた計画のうち現状ですでに目的は達成されたと言えるが、より発展的な課題も見つかったため引き続き本研究計画の中で進めている.
|
Strategy for Future Research Activity |
本研究の目的は不確実性の定量化基盤技術の確立である.現在は医療分野特に血液検査において,予測の不確実性を定量化する技術を確立しつつある.医療分野はさまざまなデータがあり,分野ごとに背景となる確率予測の活用方法が異なると考えられるため,よりさまざまな分野での確率予測・不確実性の定量化の活用を広げていく方向が考えられる.また,本研究では深層学習の確率予測の補正という形で理論的に好ましい性質を与えるアプローチをとっているが,そもそもなぜそのような補正が必要であるのかはわかっていない.深層学習が本来出力する不確実性の性質を理論的に解明することも重要であると考えられる. また,学習アルゴリズムに現れる不確実性の効果を解明するための拡散理論を基にした解析は,今後の深層学習における様々な学習アルゴリズムに適用可能ではないかと考えている.例えば、今回は深層学習で最も基本的な確率的勾配法の解析を行ったが,AdamやSAMと言った学習アルゴリズムの解析も同様に行うことができると考えている.
|
Report
(2 results)
Research Products
(4 results)