研究課題/領域番号 |
18H03201
|
研究機関 | 東京大学 |
研究代表者 |
鈴木 大慈 東京大学, 大学院情報理工学系研究科, 准教授 (60551372)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 深層学習 / 機械学習 / 統計的学習理論 / 汎化誤差 / カーネル法 |
研究実績の概要 |
今年度は,深層学習の原理に関して主に最適化の観点から研究を進めた. (1) 無限次元勾配ランジュバン動力学を用いた深層学習の最適化:深層学習の学習は非凸最適化問題を解く必要があり,通常の勾配法では局所解に陥る可能性がある.また,深層ニューラルネットワークは多数のパラメータを有するため,超高次元非凸最適化問題を解く必要がある.そこで,本研究では,無限次元非凸最適化問題を解くための無限次元勾配ランジュバン動力学を用いることを考え,その大域的最適性および汎化性能を解析した.結果としてfast learning rateと呼ばれる学習効率のバウンドを得た.また,カーネルリッジ回帰のような浅い学習方法に対して優越することを理論的に示した. (2) Neural Tangent Kernel (NTK) の確率的最適化と最適予測誤差:深層学習は非凸最適化問題に帰着されるが,横幅の広い過剰パラメータモデルを考えると線形モデルで近似できることが知られている.本研究ではこの近似が成り立つ状況において深層学習を確率的最適化することで,ある種の最適学習レートを達成できることを示した.この結果はICLR2021のoutstanding paper awardを受賞した. (3) 再生核ヒルベルト空間上の確率的最適化を考察し,重みづけたデータのサンプリングをすることで学習のレートを改善できることや,ランダム特徴量を用いたカーネルの低ランク近似を用いても判別誤差を指数的に減少させることができることを示した. (4) グラフ畳み込みネットワーク (GCN) の過平滑化と呼ばれる現象を理論的に明らかにし,それを防ぐための方法であるmutli-scale GCNと呼ばれる手法をBoosting法として再定式化し,その最適化および汎化誤差を導出し,実験的にも手法の有用性を実証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の計画でも深層学習の学習理論を最適化理論と両立する形で打ち立てることを想定していたが,今年度はその目標を期待以上に達成することができた.特に無限次元勾配ランジュバン動力学を用いた解析は浅い学習方法と比べた優越性を明瞭な形で与え,当初の予想を超えるものであった.
|
今後の研究の推進方策 |
これまでの研究により深層学習の表現能力,汎化誤差,最適化理論を進めてきたが,まだ完全であるとは言えない.表現能力に関しては,入力が無限次元に近い超高次元入力が得られる場合まで理論を拡張し,汎化誤差に関しては過剰パラメータ化されたネットワークが過学習起こしても予測誤差を小さくできることを特徴抽出も含めて示し,最適化理論においては多層ネットワークが勾配法により最適化できることおよび陰的正則化の影響を調べる.
|