2023 Fiscal Year Annual Research Report

最適化と汎化を統合した深層学習理論の構築

Research Project

Project/Area Number	22KJ0903
Allocation Type	Multi-year Fund
Research Institution	The University of Tokyo
Principal Investigator	秋山俊太東京大学, 情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2023-03-08 – 2024-03-31
Keywords	深層学習理論の深化 / 特徴量学習 / 良性過学習 / 隠的正則化
Outline of Annual Research Achievements	当該年度においては、研究課題である「正則化機構に着目した深層機械学習」に則し、（１）深層機械学習における特徴量学習と良性過学習の原理解明と、（２）線形ニューラルネットワークにおける確率的勾配降下法の隠的正則化に対する統一的な特徴付け、と言う二つのテーマに取り組んだ。まず（１）では、教師生徒設定（ニューラルネットワークで別のニューラルネットワーク構造を学習する設定）におけるReLU活性化関数を持つ二層ニューラルネットワークの学習において、特に生徒（学習されるネットワーク）が非常に広い横幅を持つ状況に着目した。そして、二段階（ノイズつき＋通常の勾配降下法）の勾配法により、横幅やサンプルサイズに対して多項式時間で特徴量学習が可能であることを理論的に示した。さらにその結果を応用し、ニューラルネットワークの良性過学習（データに完全にフィットしていても予測誤差が小さくなる現象）が起きる条件を理論的に導出した。次に（２）では、線形活性化関数をもつ二層ニューラルネットワークにおいて、勾配にのるノイズが与える隠的正則化の影響を理論的に解析した。特に、一層目と二層目のパラメータへのノイズ間の共分散構造によって、全体を線形関数としてみた場合の正則化が特徴づけられることを理論的に導出した。さらにその結果を応用し、Ridge回帰を誘導するノイズ構造の導出や、SGDやSAMなどの実用的な確率的最適化手法によりもたらされる隠的正則化の特徴づけを与えた。

Research Products
(2 results)

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Presentation] Benign Overfitting of Two-Layer Neural Networks under Inputs with Intrinsic Dimensionality2023
- Author(s)
  Shunta Akiyama, Kazusato Oko, Taiji Suzuki
- Organizer
  HiLD: High-dimensional Learning Dynamics Workshop
- Int'l Joint Research
[Presentation] 低次元構造を持つデータに対するニューラルネットワークの良性過学習の解析2023
- Author(s)
  秋山俊太，大古一聡，鈴木大慈
- Organizer
  統計関連学会連合大会