2023 Fiscal Year Annual Research Report
Development of adaptive leanring method based on optimization of probability measures
Project/Area Number |
22H03650
|
Allocation Type | Single-year Grants |
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
二反田 篤史 九州工業大学, 大学院情報工学研究院, 准教授 (60838811)
|
Project Period (FY) |
2022-04-01 – 2024-03-31
|
Keywords | 平均場ニューラルネットワーク / 平均場最適化 / ニューラルネットワーク / 確率的最適化 / 非凸最適化 |
Outline of Annual Research Achievements |
平均場ニューラルネットワークはデータへの高い適応性を持つモデルであるが同時に最適化が難しいモデルでもあり効率的な収束性の担保のためには強い条件が必要と考えられている.本研究では平均場ニューラルネットワークの学習問題が確率測度最適化問題に帰着することに着目し,確率測度空間上で適 当な正則化 (カルバック・ライブラ距離等) を加えることを考える.これにより確率測度空間上の凸最適化理論が展開可能となり,平均場ニューラルネットワークの効率的な学習可能性を示すことができる. これまでの研究でニューロン数が無数にあるネットワークに対するノイズ付き勾配降下法の大域的最適化を示した.本年度はこの結果をより現実的な設定,すなわち有限個のニューロン数,離散時間,確率的勾配を使用という設定においても効率的に収束することを証明した.これはPropagation of Chaosの問題を部分的に解決する成果である.またこの性質を活かし特定の分類問題 (sparse parity問題)において平均場ニューラルネットワークに対するノイズ付き勾配降下法が汎化性能の意味でも優れた性能を備えることを証明した.更には平均場ニューラルネットワークの効率的な最適化法の開拓にも取り組んだ.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層学習モデルの最適化は非凸問題に帰着するにも関わらず,確率的勾配降下法などの勾配法ベースの手法は最適解に収束する.またその解の性質も様々で中には過学習を引き起こすものも存在する.それにも関わらず回避することが実験的に広く観測されている.この問題は深層学習の理論研究のコミュニティにおける共通課題であり,その解決に向けてニューラルタンジェントカーネル(NTK)やニューラルネットワークの平均場理論の研究が進んだ.本研究はとくにニューラルネットワークの平均場理論の進展に大いに寄与した.具体的にはNTK理論を精緻化し二層ニューラルネットワークを理論上最適な効率で学習可能な条件を与えた.平均場理論が対象とする平均場ニューラルネットワークはデータへの適応性に優れ,深層学習の成功要因である表現学習を体現するモデルであるが,収束性の解析は困難とされていた.そのような中,本研究では平均場ニューラルネットワークの最適化ダイナミクスに対する凸理論を活用し,代表的な平均場最適化法である平均場ランジュバンダイナミクスの解析理論や,その他,効率的最適化手法の開発に取り組んだ.
|
Strategy for Future Research Activity |
優れた収束性を備えた平均場最適化手法のアプリケーションのを探索する.本分野における平均場理論は深層学習理論,とくにオーバーパラメトライズされた 2層ニューラル ネットワークの最適化ダイナミクスを分析するために開発されたが,潜在的に多くの応用が存在する.例えば,確率分布の空間上の最適化と捉えると,平均場ランジュバンダイナミクス (ノイズ付き勾配降下法) は,多くの機械学習分野への応用があり頻繁に使用されるランジュバンダイナミクスの拡張になっている.具体的には、エントロピー正則化の下では,平均場ランジュバンダイナミクスは凸汎関数を最小化し,ランジュバンダイナミクスは線形汎関数を最小化することに相当する.従って,多くの価値ある応用例の存在が期待される.例えば軌道推論,拡散モデルなどの平均場最適化法を開発する予定である.さらには大規模言語モデルなどを含む基盤モデルへの応用も視野にいれる.
|