2023 年度実績報告書

確率測度最適化法に基づく適応的機械学習アルゴリズムの研究

研究課題

研究課題/領域番号	22H03650
配分区分	補助金
研究機関	九州工業大学
研究代表者	二反田篤史九州工業大学, 大学院情報工学研究院, 准教授 (60838811)
研究期間 (年度)	2022-04-01 – 2024-03-31
キーワード	平均場ニューラルネットワーク / 平均場最適化 / ニューラルネットワーク / 確率的最適化 / 非凸最適化
研究実績の概要	平均場ニューラルネットワークはデータへの高い適応性を持つモデルであるが同時に最適化が難しいモデルでもあり効率的な収束性の担保のためには強い条件が必要と考えられている．本研究では平均場ニューラルネットワークの学習問題が確率測度最適化問題に帰着することに着目し，確率測度空間上で適当な正則化 (カルバック・ライブラ距離等) を加えることを考える．これにより確率測度空間上の凸最適化理論が展開可能となり，平均場ニューラルネットワークの効率的な学習可能性を示すことができる．これまでの研究でニューロン数が無数にあるネットワークに対するノイズ付き勾配降下法の大域的最適化を示した．本年度はこの結果をより現実的な設定，すなわち有限個のニューロン数，離散時間，確率的勾配を使用という設定においても効率的に収束することを証明した．これはPropagation of Chaosの問題を部分的に解決する成果である．またこの性質を活かし特定の分類問題 (sparse parity問題)において平均場ニューラルネットワークに対するノイズ付き勾配降下法が汎化性能の意味でも優れた性能を備えることを証明した．更には平均場ニューラルネットワークの効率的な最適化法の開拓にも取り組んだ．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由深層学習モデルの最適化は非凸問題に帰着するにも関わらず，確率的勾配降下法などの勾配法ベースの手法は最適解に収束する．またその解の性質も様々で中には過学習を引き起こすものも存在する．それにも関わらず回避することが実験的に広く観測されている．この問題は深層学習の理論研究のコミュニティにおける共通課題であり，その解決に向けてニューラルタンジェントカーネル(NTK)やニューラルネットワークの平均場理論の研究が進んだ．本研究はとくにニューラルネットワークの平均場理論の進展に大いに寄与した．具体的にはNTK理論を精緻化し二層ニューラルネットワークを理論上最適な効率で学習可能な条件を与えた．平均場理論が対象とする平均場ニューラルネットワークはデータへの適応性に優れ，深層学習の成功要因である表現学習を体現するモデルであるが，収束性の解析は困難とされていた．そのような中，本研究では平均場ニューラルネットワークの最適化ダイナミクスに対する凸理論を活用し，代表的な平均場最適化法である平均場ランジュバンダイナミクスの解析理論や，その他，効率的最適化手法の開発に取り組んだ．
今後の研究の推進方策	優れた収束性を備えた平均場最適化手法のアプリケーションのを探索する．本分野における平均場理論は深層学習理論，とくにオーバーパラメトライズされた 2層ニューラルネットワークの最適化ダイナミクスを分析するために開発されたが，潜在的に多くの応用が存在する．例えば，確率分布の空間上の最適化と捉えると，平均場ランジュバンダイナミクス (ノイズ付き勾配降下法) は，多くの機械学習分野への応用があり頻繁に使用されるランジュバンダイナミクスの拡張になっている．具体的には、エントロピー正則化の下では，平均場ランジュバンダイナミクスは凸汎関数を最小化し，ランジュバンダイナミクスは線形汎関数を最小化することに相当する．従って，多くの価値ある応用例の存在が期待される．例えば軌道推論，拡散モデルなどの平均場最適化法を開発する予定である．さらには大規模言語モデルなどを含む基盤モデルへの応用も視野にいれる．

研究成果
(9件)

すべて 2023 その他

すべて国際共同研究 (3件) 雑誌論文 (5件) (うち国際共著 5件、査読あり 5件、オープンアクセス 5件) 学会発表 (1件) (うち国際学会 1件、招待講演 1件)

[国際共同研究] University of Toronto(カナダ)
- 国名
  カナダ
- 外国機関名
  University of Toronto
[国際共同研究] King's College London/University of Greenwich(英国)
- 国名
  英国
- 外国機関名
  King's College London/University of Greenwich
[国際共同研究] Duke Kunshan University(中国)
- 国名
  中国
- 外国機関名
  Duke Kunshan University
[雑誌論文] Uniform-in-time Propagation of Chaos for the Mean Field Gradient Langevin Dynamics2023
- 著者名/発表者名
  Taiji Suzuki, Atsushi Nitanda, Denny Wu
- 雑誌名
  
  The 11th International Conference on Learning Representations (ICLR2023)
  
  巻: 11 ページ: -
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum Problems2023
- 著者名/発表者名
  Atsushi Nitanda, Kazusato Oko, Denny Wu, Nobuhito Takenouchi, Taiji Suzuki
- 雑誌名
  
  The 40th International Conference on Machine Learning (ICML2023)
  
  巻: 202 ページ: 26266--26282
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Tight and Fast Generalization Error Bound of Graph Embedding in Metric Space2023
- 著者名/発表者名
  Atsushi Suzuki, Atsushi Nitanda, Taiji Suzuki, Jing Wang, Feng Tian, Kenji Yamanishi
- 雑誌名
  
  The 40th International Conference on Machine Learning (ICML2023)
  
  巻: 202 ページ: 33268--33284
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Convergence of Mean-field Langevin Dynamics: Time and Space Discretization, Stochastic Gradient, and Variance Reduction2023
- 著者名/発表者名
  Taiji Suzuki, Denny Wu, Atsushi Nitanda
- 雑誌名
  
  In Advances in Neural Information Processing Systems
  
  巻: 36 ページ: 15545--15577
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Feature Learning via Mean-field Langevin Dynamics: Classifying Sparse Parities and Beyond2023
- 著者名/発表者名
  Taiji Suzuki, Denny Wu, Kazusato Oko, Atsushi Nitanda
- 雑誌名
  
  In Advances in Neural Information Processing Systems
  
  巻: 36 ページ: 34536--34556
- 査読あり / オープンアクセス / 国際共著
[学会発表] Convergence theory for mean-field optimization methods2023
- 著者名/発表者名
  Atsushi Nitanda, Denny Wu, Taiji Suzuki
- 学会等名
  Minisymposium: Recent advances on non-convex optimization in inverse problems, imaging and machine learning. International Council for Industrial and Applied Mathematics (ICIAM)
- 国際学会 / 招待講演

2023 年度 実績報告書

確率測度最適化法に基づく適応的機械学習アルゴリズムの研究

研究代表者

二反田 篤史 九州工業大学, 大学院情報工学研究院, 准教授 (60838811)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] University of Toronto(カナダ)

国名

外国機関名

[国際共同研究] King's College London/University of Greenwich(英国)

国名

外国機関名

[国際共同研究] Duke Kunshan University(中国)

国名

外国機関名

[雑誌論文] Uniform-in-time Propagation of Chaos for the Mean Field Gradient Langevin Dynamics2023

著者名/発表者名

雑誌名

[雑誌論文] Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum Problems2023

著者名/発表者名

雑誌名

[雑誌論文] Tight and Fast Generalization Error Bound of Graph Embedding in Metric Space2023

著者名/発表者名

雑誌名

[雑誌論文] Convergence of Mean-field Langevin Dynamics: Time and Space Discretization, Stochastic Gradient, and Variance Reduction2023

著者名/発表者名

雑誌名

[雑誌論文] Feature Learning via Mean-field Langevin Dynamics: Classifying Sparse Parities and Beyond2023

著者名/発表者名

雑誌名

[学会発表] Convergence theory for mean-field optimization methods2023

著者名/発表者名

学会等名

2023 年度実績報告書

二反田篤史九州工業大学, 大学院情報工学研究院, 准教授 (60838811)