研究課題/領域番号 |
20H04239
|
配分区分 | 補助金 |
研究機関 | 東京大学 |
研究代表者 |
佐藤 一誠 東京大学, 大学院情報理工学系研究科, 准教授 (90610155)
|
研究分担者 |
三森 隆広 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40760161)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 深層学習 / 汎化能力 / 学習理論 / PAC Bayes / 機械学習 |
研究実績の概要 |
深層ニューラルネットワークに代表される先端的なモデルのパラメータの推定(学習)には,確率的勾配を用いた最適化が主流である.多数の局所解が存在する最適化問題に対して確率勾配を用いた最適化には局所解を回避する性質があることが経験的に知られている.さらにそのように局所解を回避しつつ収束(停留)する局所解が優れた汎化能力(予測能力)を発揮することが経験的に知られている.しかし,このような勾配における確率的な振る舞いがなぜ優れた汎化能力を持つのかその理論体系はまだ確立されていない.近年,局所解の平均平坦度(expected flatness)という統計量と汎化能力の関係に着目しPAC Bayes理論による解析が注目を集めている.平均平坦度は,モデルパラメータの不確実性をモデリングした事後分布による損失関数の平均を表しており,局所解の周辺の平坦さを事後分布による不確実性を利用して測る指標である.しかし,この平均平坦度は,モデルパラメータのスケール変換に対して不変性を持たないという性質があることが指摘されており,既存の理論では汎化能力との関係を説明するには不十分であった.我々は,PAC Bayes理論における事前分布に相当する分布がこのスケール不変性の問題を引き起こしていることを解明し、解決するための理論解析手法を提案した.具体的には事前分布におけるパラメータのスケールに相当する項をパラメータ毎に異なる値をとるように自由度を与え、平坦度を正規化することでスケール不変性を持つ平均平坦度と汎化能力の関係を導き出した.この結果は,現実でよく利用される複雑なネットワーク構造をもつ深層ニューラルネットの実験結果とも整合することを示した.本研究をICML2020にて発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画書では主に3つの研究課題(A,B,C)について記述しているが、課題(B)については2020年度の研究成果でおおむね達成できた.また、課題(A)についてもある程度成果のめどが立っている.課題(C)については挑戦的な課題であることから、課題(A)および(B)が達成できた後に取り組むこととしており、順調に進んでいると言える.
|
今後の研究の推進方策 |
今後は研究課題(A)について研究成果を出す予定である.具体的には,「入力に対して1つの診断予測結果を返す」のではなく,「入力が持つ診断の不確実性の数値そのものを予測する」という研究である.通常,ラベルノイズがある状況下での学習では最終的に得られる学習器は「入力に対して1つの予測結果を返す」ことを目指す.したがって,ハイパーパラメータ探索や結果の交差検証などには最終的には1つの入力に対してノイズのない正解データを用意する設定である.本研究では,そもそもそのような真の正解が得られるわけではなく常に不確実性を伴う状況を考慮する.特に,医療の現場では,ある画像が病変であるか否かという識別よりも、病変である確率はどの程度か?という不確実性そのものを定量化することの方が求められているため,そのような不確実性を重要視した診断予測支援システムのための学習方法を研究する.
|