2019 Fiscal Year Research-status Report
ランダム深層ニューラルネットの数理的基盤の構築とその学習への応用
Project/Area Number |
19K20366
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
唐木田 亮 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (30803902)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 深層学習 / 統計力学 / ニューラルネットワーク / 機械学習 |
Outline of Annual Research Achievements |
本研究の目的は, 深層学習の数理的基盤となる枠組みを, ランダム結合をもつニューラルネットワークの解析に基づいて構成することである. 研究実施計画の初年度である本年度は, 課題1-1に対応するパラメータ空間の幾何構造を完全ランダム結合をもつ深層ニューラルネットにおいて重点的に調べた. まず, 研究の予備的知見として報告していたランダム深層ネットにおけるFisher情報行列の固有値分布の解析が出版された. この論文では, 最大固有値に見積りを与えることで, 再急降下法の収束に適したステップ幅(学習率)を評価できることを明らかにした. これにより, 学習率の自動調整を含むよりよい勾配法を提案する課題2を議論するための基盤が構築できたといえる. さらに, 本年度は, 深層学習で広く用いられるbatch normalizationありのモデルにおいても, ランダム結合下でのFisher情報行列の固有値解析を行った. これにより, batch normalizationされたモデルの最大固有値が小さくなることを発見した. すなわちパラメータ空間の幾何学的な構造は, より平坦に近い. この結果は, より大きな学習率をモデルの大きさに依存せずに設定できることを示唆しており, 経験的な知見ともコンシステントであり興味深い. ランダム初期化された幅の大きなモデルに着目することで, 層数や活性化関数の種類の詳細に依存しない, 普遍的なbatch normalizationの理論的な理解を与えることができた. 特に我々の結果は, 最終層にbatch normalizationをかけるだけで十分に最大固有値を下げること, 類似の手法であるlayer normalizationではこの効果が見えないこと, を示唆しており, アルゴリズム間の挙動の違いに対して, 新しい知見を与えた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は課題1-1のパラメータ空間の幾何構造に重点的に取り組むことで順調に進展させることができた. 同様に課題1-2の入力空間の幾何構造についてもプレプリントで予備的知見をあげており, 順調に進んでいるといえる. 一方で, 課題1-3の構造のあるランダム結合については着手していないため, 来年度以降の集中的な取り組みが期待される.
|
Strategy for Future Research Activity |
課題1-3の構造のあるランダム結合について解析を進める. 深層学習の文脈で, 最適化あるいは汎化において意味のある結合を同定し, 理論解析することが必要である. どのようなランダム結合が応用上重要な意味をもつかを広くサーベイしたのち, 具体的な計算に着手することが望まれる. そこで課題1-3のためのサーベイを進めつつ, 課題2-2の勾配法の改良に着手する. 具体的にはこれまで解析してきたFisher情報行列を活用する自然勾配法を, ランダム初期値まわりの解析をベースに考え, より効率的な自然勾配法の提案へとつなげることが直近の課題である.
|
Causes of Carryover |
本年度は学会の現地開催中止の影響で旅費が抑えられた. また数値実験が比較的小規模で済んだため計算機使用料が抑えられた.これらの次年度使用額は旅費・計算機使用料として利用する計画である.
|