2019 Fiscal Year Annual Research Report
Intensifying deep learning theory and its application to structure analysis of deep neural network
Project/Area Number |
18H03201
|
Research Institution | The University of Tokyo |
Principal Investigator |
鈴木 大慈 東京大学, 大学院情報理工学系研究科, 准教授 (60551372)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 深層学習 / 機械学習 / 確率的最適化 / 統計的学習理論 / 数理統計 / 高次元統計 / モデル圧縮 |
Outline of Annual Research Achievements |
深層学習の理論研究 (1) 深層学習の理論ではモデル圧縮可能性によって汎化誤差を特徴づける理論が研究されているが,それらは圧縮した後のネットワークの汎化誤差であり,圧縮前のネットワークについては理論保証を与えなかった.そこで,ネットワークの隠れた自由度がどのように汎化誤差に影響するかを解析し,圧縮前のネットワークが潜在的にどれくらい圧縮可能かによって汎化誤差を特徴付ける理論を与えた.その結果,従来の圧縮後に適用可能なバウンドに比べてタイトなバウンドを得ることができ,また我々の解析に用いた統計的自由度は既存研究のそれに比べて大きく改善した評価を与えることが分かった.この理論を援用して,転移学習などにおけるネットワーク構造自動決定やCNNのネットワーク圧縮技術およびテンソル分解による深層NNの圧縮理論といった研究も実施した.(2) グラフCNNはグラフ上の深層学習モデルであり,現在注目されているが,層を深くすると精度が悪くなるという性質が知られていた.そこで,グラフCNNの理論解析によって,グラフCNNには過平滑化の効果があることを示し,層を積んでも学習がうまくいかない理由の一部を理論的に示した.(3) 深層学習は,真の関数が様々な方向に対して非常に滑らかであれば,次元の呪いを回避できることを非等方的Besov空間の理論を用いて示した.
最適化理論の研究 (1) これまでの研究で我々が提案してきた二重確率的分散縮小勾配降下法が実はミニバッチサイズの効率性と言う意味でも最適であることを示した.この結果より,ミニバッチサイズはサンプルサイズnの平方根より増やしても収束効率は上がらないことが分かった.(2) 再生核ヒルベルト空間上の確率的最適化を考え,真の分布が強低ノイズ条件という性質を持っていれば判別誤差が更新回数に対して指数的に収束することを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の予定では予想していなかった結果も出ており,さらに深層学習理論を中心として様々な機械学習の関連手法との関係が明らかになる知見が得られているため.
|
Strategy for Future Research Activity |
これまで深層学習の表現理論・汎化誤差・最適化についてそれぞれ研究を進めてきており,一定以上の結果は出ているが,これらを完全の統合する理論はまだできていない.特に,最適化理論と汎化誤差理論がうまく融合しておらず,現実の深層学習がなぜ良い性能を出すような学習を達成しているのかという疑問には答えられていない.今後は,この点を明らかにすべく新しい理論を展開する.特に,無限次元ランジュバン動力学を用いた理論解析を展開し,最適化理論の裏打ちされた汎化誤差理論を打ち立て,深層学習がカーネル法のような浅い学習方法に勝る状況を明らかにする.
|
Research Products
(36 results)