研究実績の概要 |
本研究課題では, 幾何学の視点に基づいたアルゴリズムの提案と理論解析をとおして, 制御が容易な深層学習法の確立を目的としている. まず, 本年度は研究実施計画にある効率的な勾配構築の一環として, 階層型ニューラルネットのパラメータ空間の幾何学的な性質を明らかにした. パラメータ空間には特異領域と呼ばれる勾配法が停滞しやすい領域がある. 学習の力学的解析をこの領域で実施したところ, モデルの出力素子数を増やす条件下で棟杭領域を減らせることが明らかとなった. これは今後の勾配法の開発において有用な知見である. 本成果は論文誌1件採択につながった. また, 本年度は深層学習の基本的な設計部位であるコスト関数に関して研究を行った. パラメータ空間の幾何学はコストの設計に依存するため, 勾配法の開発の前に, コスト関数の幾何学を調べることが有用である. 通常使われるKL情報量に基づくコスト関数は, 自然画像のような高次元データでは十分な学習が実現しない例が報告されている. この問題に対し有望と考えられるWasserstein距離を本年度は研究した. その結果, エントロピー罰則付きWasserstein距離の背後に双対微分幾何に基づく情報幾何の構造があることが明らかになった. この幾何学の視点は, 数理的に自然な学習アルゴリズムの開発につながると期待される. 本研究により, 論文誌1件採択, 国際会議1件採択という成果が得られた. さらに, 本年度は統計物理における平均場理論を深層ネットワークに適用することで, パラメータ空間の幾何学を定めるFisher計量の解析を行った. その結果, 計量行列の固有値に関する知見が得られ, 勾配法の収束に必要な学習率を理論的に定量化できた. 本成果は, 国内学会1件における発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画どおり, 階層型ニューラルネットワークにおける学習の力学的解析を本年度は進めることができた. この研究はモデルの出力素子を多くすればプラトー現象を抑えられると主張しており, 学習ダイナミクスの理解, アルゴリズムの開発を進めるうえで重要な知見だろう. また本年度は, 平均場理論を利用することで, 従来困難であったコスト関数のランドスケープ解析を大きく進めることができた. これにより, 本年度は最急勾配法が収束するのに必要な学習率を, コスト関数の曲がり方から定量的に推定できるようになった. 研究実施計画で次年度に予定していた確率的最適化における幾何学的に自然な勾配の開発のための足場となる数理の枠組みが構築できたといえる. 学習率は今もなお深層学習において恣意性が大きいハイパーパラメータであることから, その設定に理論の知見を与えられたことは実用上も意義深い. また, 本年度は勾配を定めるコスト関数自体においても解析が進んだ. 特に, 深層学習において利用が増えつつあるWasserstein距離において, 自然な幾何学として情報幾何を導入できたことは重要である. これにより, 情報幾何の視点から数理的に効率的な学習アルゴリズムの設計が通常のコストだけでなく, このWasserstein距離でも可能になるだろう. 以上から, おおむね研究計画に沿って, 研究は順調に進展しているといえる.
|
今後の研究の推進方策 |
本年度は, 自然勾配を定めるFisher情報行列の統計性を一般の深層ネットワークで平均場理論に基づき解析した. これにより, 学習の発散を防ぐ学習率の調整法に目処を付けることができた. 次年度は, この知見をさらに発展させ, より実用に適した理論を提供することを目指す. まず, 当初の研究計画のどおり, 確率的最適化の影響を評価したい. 深層学習で用いられる最適化は確率的である場合が多く, この場合に勾配を効率的に収束させるために必要な学習率の推定を進める. 次に, 平均場理論を拡張することで, コスト関数の鞍点や極小解と勾配の関係を明らかにする. 確率的最適化は鞍点や極小解を脱出やすいことが知られているが, 過剰なノイズは誤差関数の減少を妨げるため, 適切な大きさのノイズが重要である. ノイズの大きさは学習率で調整できると考えられ, 鞍点や極小解を効率的に避ける学習率の設計を探る. さらに, 近年おもに画像認識において高い性能を発揮しているResNetでも同様の解析を行い, 適切な学習率の理論評価を行う. 同時に, 本年度明らかにしたWasserstein距離の幾何構造に基づき, 学習を効率的に実現するアルゴリズムの開発も同時に進める. また引き続き, 特異領域の力学系解析も引き続き進める. 特に, 3層パーセプトロンにおいて統計力学的解析を行うことで, 学習初期値から収束までのダイナミクスを解き, 特異領域の回避をより詳細に解明する予定である.
|