最適化と汎化を統合した深層学習理論の構築

Research Project

Project/Area Number	22KJ0903
Project/Area Number (Other)	22J13388 (2022)
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund (2023) Single-year Grants (2022)
Section	国内
Review Section	Basic Section 60030:Statistical science-related
Research Institution	The University of Tokyo
Principal Investigator	秋山俊太東京大学, 情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2023-03-08 – 2024-03-31
Project Status	Completed (Fiscal Year 2023)
Budget Amount *help	¥1,700,000 (Direct Cost: ¥1,700,000) Fiscal Year 2023: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
Keywords	深層学習理論の深化 / 特徴量学習 / 良性過学習 / 隠的正則化 / 深層学習の優位性 / 高次元統計の汎化理論
Outline of Research at the Start	深層学習の理論解析は近年盛んに研究されている一方，十分に現実の深層学習の有効性を示すものとは言えない．深層学習の理論解析における2つの重要な側面として，勾配法が適切に収束するかという「最適化理論」と，将来の未知のデータに対しても正しく予測できるかという「汎化誤差理論」が挙げられる．本研究は現状独立に発達している部分が多いこの2 つを統合し，より現実的な状況下で深層学習の有効性を示す理論を展開することで，この問題解決に取り組むものである．
Outline of Annual Research Achievements	当該年度においては、研究課題である「正則化機構に着目した深層機械学習」に則し、（１）深層機械学習における特徴量学習と良性過学習の原理解明と、（２）線形ニューラルネットワークにおける確率的勾配降下法の隠的正則化に対する統一的な特徴付け、と言う二つのテーマに取り組んだ。まず（１）では、教師生徒設定（ニューラルネットワークで別のニューラルネットワーク構造を学習する設定）におけるReLU活性化関数を持つ二層ニューラルネットワークの学習において、特に生徒（学習されるネットワーク）が非常に広い横幅を持つ状況に着目した。そして、二段階（ノイズつき＋通常の勾配降下法）の勾配法により、横幅やサンプルサイズに対して多項式時間で特徴量学習が可能であることを理論的に示した。さらにその結果を応用し、ニューラルネットワークの良性過学習（データに完全にフィットしていても予測誤差が小さくなる現象）が起きる条件を理論的に導出した。次に（２）では、線形活性化関数をもつ二層ニューラルネットワークにおいて、勾配にのるノイズが与える隠的正則化の影響を理論的に解析した。特に、一層目と二層目のパラメータへのノイズ間の共分散構造によって、全体を線形関数としてみた場合の正則化が特徴づけられることを理論的に導出した。さらにその結果を応用し、Ridge回帰を誘導するノイズ構造の導出や、SGDやSAMなどの実用的な確率的最適化手法によりもたらされる隠的正則化の特徴づけを与えた。