• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Development of adaptive leanring method based on optimization of probability measures

Research Project

Project/Area Number 22H03650
Allocation TypeSingle-year Grants
Research InstitutionKyushu Institute of Technology

Principal Investigator

二反田 篤史  九州工業大学, 大学院情報工学研究院, 准教授 (60838811)

Project Period (FY) 2022-04-01 – 2024-03-31
Keywords平均場ニューラルネットワーク / 平均場最適化 / ニューラルネットワーク / 確率的最適化 / 非凸最適化
Outline of Annual Research Achievements

平均場ニューラルネットワークはデータへの高い適応性を持つモデルであるが同時に最適化が難しいモデルでもあり効率的な収束性の担保のためには強い条件が必要と考えられている.本研究では平均場ニューラルネットワークの学習問題が確率測度最適化問題に帰着することに着目し,確率測度空間上で適
当な正則化 (カルバック・ライブラ距離等) を加えることを考える.これにより確率測度空間上の凸最適化理論が展開可能となり,平均場ニューラルネットワークの効率的な学習可能性を示すことができる.
これまでの研究でニューロン数が無数にあるネットワークに対するノイズ付き勾配降下法の大域的最適化を示した.本年度はこの結果をより現実的な設定,すなわち有限個のニューロン数,離散時間,確率的勾配を使用という設定においても効率的に収束することを証明した.これはPropagation of Chaosの問題を部分的に解決する成果である.またこの性質を活かし特定の分類問題 (sparse parity問題)において平均場ニューラルネットワークに対するノイズ付き勾配降下法が汎化性能の意味でも優れた性能を備えることを証明した.更には平均場ニューラルネットワークの効率的な最適化法の開拓にも取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

深層学習モデルの最適化は非凸問題に帰着するにも関わらず,確率的勾配降下法などの勾配法ベースの手法は最適解に収束する.またその解の性質も様々で中には過学習を引き起こすものも存在する.それにも関わらず回避することが実験的に広く観測されている.この問題は深層学習の理論研究のコミュニティにおける共通課題であり,その解決に向けてニューラルタンジェントカーネル(NTK)やニューラルネットワークの平均場理論の研究が進んだ.本研究はとくにニューラルネットワークの平均場理論の進展に大いに寄与した.具体的にはNTK理論を精緻化し二層ニューラルネットワークを理論上最適な効率で学習可能な条件を与えた.平均場理論が対象とする平均場ニューラルネットワークはデータへの適応性に優れ,深層学習の成功要因である表現学習を体現するモデルであるが,収束性の解析は困難とされていた.そのような中,本研究では平均場ニューラルネットワークの最適化ダイナミクスに対する凸理論を活用し,代表的な平均場最適化法である平均場ランジュバンダイナミクスの解析理論や,その他,効率的最適化手法の開発に取り組んだ.

Strategy for Future Research Activity

優れた収束性を備えた平均場最適化手法のアプリケーションのを探索する.本分野における平均場理論は深層学習理論,とくにオーバーパラメトライズされた 2層ニューラル ネットワークの最適化ダイナミクスを分析するために開発されたが,潜在的に多くの応用が存在する.例えば,確率分布の空間上の最適化と捉えると,平均場ランジュバンダイナミクス (ノイズ付き勾配降下法) は,多くの機械学習分野への応用があり頻繁に使用されるランジュバンダイナミクスの拡張になっている.具体的には、エントロピー正則化の下では,平均場ランジュバンダイナミクスは凸汎関数を最小化し,ランジュバンダイナミクスは線形汎関数を最小化することに相当する.従って,多くの価値ある応用例の存在が期待される.例えば軌道推論,拡散モデルなどの平均場最適化法を開発する予定である.さらには大規模言語モデルなどを含む基盤モデルへの応用も視野にいれる.

  • Research Products

    (9 results)

All 2023 Other

All Int'l Joint Research (3 results) Journal Article (5 results) (of which Int'l Joint Research: 5 results,  Peer Reviewed: 5 results,  Open Access: 5 results) Presentation (1 results) (of which Int'l Joint Research: 1 results,  Invited: 1 results)

  • [Int'l Joint Research] University of Toronto(カナダ)

    • Country Name
      CANADA
    • Counterpart Institution
      University of Toronto
  • [Int'l Joint Research] King's College London/University of Greenwich(英国)

    • Country Name
      UNITED KINGDOM
    • Counterpart Institution
      King's College London/University of Greenwich
  • [Int'l Joint Research] Duke Kunshan University(中国)

    • Country Name
      CHINA
    • Counterpart Institution
      Duke Kunshan University
  • [Journal Article] Uniform-in-time Propagation of Chaos for the Mean Field Gradient Langevin Dynamics2023

    • Author(s)
      Taiji Suzuki, Atsushi Nitanda, Denny Wu
    • Journal Title

      The 11th International Conference on Learning Representations (ICLR2023)

      Volume: 11 Pages: -

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum Problems2023

    • Author(s)
      Atsushi Nitanda, Kazusato Oko, Denny Wu, Nobuhito Takenouchi, Taiji Suzuki
    • Journal Title

      The 40th International Conference on Machine Learning (ICML2023)

      Volume: 202 Pages: 26266--26282

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Tight and Fast Generalization Error Bound of Graph Embedding in Metric Space2023

    • Author(s)
      Atsushi Suzuki, Atsushi Nitanda, Taiji Suzuki, Jing Wang, Feng Tian, Kenji Yamanishi
    • Journal Title

      The 40th International Conference on Machine Learning (ICML2023)

      Volume: 202 Pages: 33268--33284

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Convergence of Mean-field Langevin Dynamics: Time and Space Discretization, Stochastic Gradient, and Variance Reduction2023

    • Author(s)
      Taiji Suzuki, Denny Wu, Atsushi Nitanda
    • Journal Title

      In Advances in Neural Information Processing Systems

      Volume: 36 Pages: 15545--15577

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Feature Learning via Mean-field Langevin Dynamics: Classifying Sparse Parities and Beyond2023

    • Author(s)
      Taiji Suzuki, Denny Wu, Kazusato Oko, Atsushi Nitanda
    • Journal Title

      In Advances in Neural Information Processing Systems

      Volume: 36 Pages: 34536--34556

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] Convergence theory for mean-field optimization methods2023

    • Author(s)
      Atsushi Nitanda, Denny Wu, Taiji Suzuki
    • Organizer
      Minisymposium: Recent advances on non-convex optimization in inverse problems, imaging and machine learning. International Council for Industrial and Applied Mathematics (ICIAM)
    • Int'l Joint Research / Invited

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi