• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of adaptive leanring method based on optimization of probability measures

Research Project

Project/Area Number 23K24906
Project/Area Number (Other) 22H03650 (2022-2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2022-2023)
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionKyushu Institute of Technology

Principal Investigator

二反田 篤史  九州工業大学, 大学院情報工学研究院, 准教授 (60838811)

Project Period (FY) 2022-04-01 – 2024-03-31
Project Status Ceased (Fiscal Year 2024)
Budget Amount *help
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2026: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥3,383,174 (Direct Cost: ¥2,602,441、Indirect Cost: ¥780,733)
Fiscal Year 2023: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2022: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Keywords平均場ニューラルネットワーク / 平均場最適化 / ニューラルネットワーク / 確率的最適化 / 非凸最適化 / 確率測度最適化 / 機械学習 / 深層学習 / 平均場理論
Outline of Research at the Start

深層学習の登場によって人工知能技術の性能が飛躍的に向上している.その根幹技術がニューラルネットワークを用いた深層学習である.深層学習はそのポテンシャルの高さから学術・産業界における注目度が非常に高く活発に研究が進められている.一方で,その高い性能を引き出すためには多数の試行錯誤とそれに伴う膨大な計算リソースが必要とされる.その原因として深層学習の動作原理に対する理解不足からくる適切なネットワーク構造の決定・学習アルゴリズムのチューニングについての指針の欠如が挙げられる.本研究では深層学習を次世代技術としてさらに普及させるために深層学習の理論的理解に基づいた効率的学習法の開発に取り組む.

Outline of Annual Research Achievements

平均場ニューラルネットワークはデータへの高い適応性を持つモデルであるが同時に最適化が難しいモデルでもあり効率的な収束性の担保のためには強い条件が必要と考えられている.本研究では平均場ニューラルネットワークの学習問題が確率測度最適化問題に帰着することに着目し,確率測度空間上で適
当な正則化 (カルバック・ライブラ距離等) を加えることを考える.これにより確率測度空間上の凸最適化理論が展開可能となり,平均場ニューラルネットワークの効率的な学習可能性を示すことができる.
これまでの研究でニューロン数が無数にあるネットワークに対するノイズ付き勾配降下法の大域的最適化を示した.本年度はこの結果をより現実的な設定,すなわち有限個のニューロン数,離散時間,確率的勾配を使用という設定においても効率的に収束することを証明した.これはPropagation of Chaosの問題を部分的に解決する成果である.またこの性質を活かし特定の分類問題 (sparse parity問題)において平均場ニューラルネットワークに対するノイズ付き勾配降下法が汎化性能の意味でも優れた性能を備えることを証明した.更には平均場ニューラルネットワークの効率的な最適化法の開拓にも取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

深層学習モデルの最適化は非凸問題に帰着するにも関わらず,確率的勾配降下法などの勾配法ベースの手法は最適解に収束する.またその解の性質も様々で中には過学習を引き起こすものも存在する.それにも関わらず回避することが実験的に広く観測されている.この問題は深層学習の理論研究のコミュニティにおける共通課題であり,その解決に向けてニューラルタンジェントカーネル(NTK)やニューラルネットワークの平均場理論の研究が進んだ.本研究はとくにニューラルネットワークの平均場理論の進展に大いに寄与した.具体的にはNTK理論を精緻化し二層ニューラルネットワークを理論上最適な効率で学習可能な条件を与えた.平均場理論が対象とする平均場ニューラルネットワークはデータへの適応性に優れ,深層学習の成功要因である表現学習を体現するモデルであるが,収束性の解析は困難とされていた.そのような中,本研究では平均場ニューラルネットワークの最適化ダイナミクスに対する凸理論を活用し,代表的な平均場最適化法である平均場ランジュバンダイナミクスの解析理論や,その他,効率的最適化手法の開発に取り組んだ.

Strategy for Future Research Activity

優れた収束性を備えた平均場最適化手法のアプリケーションのを探索する.本分野における平均場理論は深層学習理論,とくにオーバーパラメトライズされた 2層ニューラル ネットワークの最適化ダイナミクスを分析するために開発されたが,潜在的に多くの応用が存在する.例えば,確率分布の空間上の最適化と捉えると,平均場ランジュバンダイナミクス (ノイズ付き勾配降下法) は,多くの機械学習分野への応用があり頻繁に使用されるランジュバンダイナミクスの拡張になっている.具体的には、エントロピー正則化の下では,平均場ランジュバンダイナミクスは凸汎関数を最小化し,ランジュバンダイナミクスは線形汎関数を最小化することに相当する.従って,多くの価値ある応用例の存在が期待される.例えば軌道推論,拡散モデルなどの平均場最適化法を開発する予定である.さらには大規模言語モデルなどを含む基盤モデルへの応用も視野にいれる.

Report

(2 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • Research Products

    (22 results)

All 2023 2022 Other

All Int'l Joint Research (4 results) Journal Article (8 results) (of which Int'l Joint Research: 8 results,  Peer Reviewed: 8 results,  Open Access: 8 results) Presentation (9 results) (of which Int'l Joint Research: 7 results,  Invited: 1 results) Book (1 results)

  • [Int'l Joint Research] University of Toronto(カナダ)

    • Related Report
      2023 Annual Research Report
  • [Int'l Joint Research] King's College London/University of Greenwich(英国)

    • Related Report
      2023 Annual Research Report
  • [Int'l Joint Research] Duke Kunshan University(中国)

    • Related Report
      2023 Annual Research Report
  • [Int'l Joint Research] トロント大学(カナダ)

    • Related Report
      2022 Annual Research Report
  • [Journal Article] Uniform-in-time Propagation of Chaos for the Mean Field Gradient Langevin Dynamics2023

    • Author(s)
      Taiji Suzuki, Atsushi Nitanda, Denny Wu
    • Journal Title

      The 11th International Conference on Learning Representations (ICLR2023)

      Volume: 11

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum Problems2023

    • Author(s)
      Atsushi Nitanda, Kazusato Oko, Denny Wu, Nobuhito Takenouchi, Taiji Suzuki
    • Journal Title

      The 40th International Conference on Machine Learning (ICML2023)

      Volume: 202

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Tight and Fast Generalization Error Bound of Graph Embedding in Metric Space2023

    • Author(s)
      Atsushi Suzuki, Atsushi Nitanda, Taiji Suzuki, Jing Wang, Feng Tian, Kenji Yamanishi
    • Journal Title

      The 40th International Conference on Machine Learning (ICML2023)

      Volume: 202

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Convergence of Mean-field Langevin Dynamics: Time and Space Discretization, Stochastic Gradient, and Variance Reduction2023

    • Author(s)
      Taiji Suzuki, Denny Wu, Atsushi Nitanda
    • Journal Title

      In Advances in Neural Information Processing Systems

      Volume: 36

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Feature Learning via Mean-field Langevin Dynamics: Classifying Sparse Parities and Beyond2023

    • Author(s)
      Taiji Suzuki, Denny Wu, Kazusato Oko, Atsushi Nitanda
    • Journal Title

      In Advances in Neural Information Processing Systems

      Volume: 36

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Two-layer neural network on infinite dimensional data: global optimization guarantee in the mean-field regime2022

    • Author(s)
      Naoki Nishikawa, Taiji Suzuki, Atsushi Nitanda, Denny Wu
    • Journal Title

      Advances in Neural Information Processing Systems (NeurIPS2022)

      Volume: 35 Pages: 32612-32623

    • Related Report
      2022 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Particle dual averaging: optimization of mean field neural network with global convergence rate analysis*2022

    • Author(s)
      Nitanda Atsushi、Wu Denny、Suzuki Taiji
    • Journal Title

      Journal of Statistical Mechanics: Theory and Experiment

      Volume: 2022 Issue: 11 Pages: 114010-114010

    • DOI

      10.1088/1742-5468/ac98a8

    • Related Report
      2022 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Particle Stochastic Dual Coordinate Ascent: Exponential convergent algorithm for mean field neural network optimization2022

    • Author(s)
      Kazusato Oko, Taiji Suzuki, Atsushi Nitanda, Denny Wu
    • Journal Title

      The 10th International Conference on Learning Representations

      Volume: 10

    • Related Report
      2022 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] Convergence theory for mean-field optimization methods2023

    • Author(s)
      Atsushi Nitanda, Denny Wu, Taiji Suzuki
    • Organizer
      Minisymposium: Recent advances on non-convex optimization in inverse problems, imaging and machine learning. International Council for Industrial and Applied Mathematics (ICIAM)
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] Primal and Dual Analysis of Mean-field Models2023

    • Author(s)
      Atsushi Nitanda
    • Organizer
      EPFL-CIS & RIKEN AIP Joint Workshop on Machine Learning
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Optimization Theory of Neural Networks under Mean-field Regime2023

    • Author(s)
      Atsushi Nitanda
    • Organizer
      Workshop on Optimization and Machine Learning
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Primal and Dual Analysis of Mean-field Models2023

    • Author(s)
      Atsushi Nitanda
    • Organizer
      RIKEN-AIP & PRAIRIE Joint Workshop on Machine Learning and Artificial Intelligence
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] ニューラルネットワークの平均場解析2022

    • Author(s)
      二反田篤史
    • Organizer
      IBISML研究会
    • Related Report
      2022 Annual Research Report
  • [Presentation] 平均化確率的勾配降下法による平坦性を指向する帰納バイアスの強化2022

    • Author(s)
      菊池竜平,前田修吾,二反田篤史
    • Organizer
      情報論的学習理論ワークショップ (IBIS)
    • Related Report
      2022 Annual Research Report
  • [Presentation] Convex Analysis of the Mean Field Langevin Dynamics2022

    • Author(s)
      Atsushi Nitanda, Denny Wu, Taiji Suzuki
    • Organizer
      Conference on the Mathematical Theory of Deep Neural Networks (DeepMath)
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Convergence of mean field gradient Langevin dynamics for optimizing two-layer neural networks2022

    • Author(s)
      Taiji Suzuki, Atsushi Nitanda, Denny Wu, Kazusato Oko
    • Organizer
      International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2022)
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat Regions2022

    • Author(s)
      Atsushi Nitanda
    • Organizer
      First A*STAR CFAR - RIKEN AIP Joint Workshop on AI and Machine Learning
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Book] 深層学習からマルチモーダル情報処理へ2022

    • Author(s)
      中山 英樹、二反田 篤史、田村 晃裕、井上 中順、牛久 祥孝
    • Total Pages
      248
    • Publisher
      サイエンス社
    • ISBN
      9784781915548
    • Related Report
      2022 Annual Research Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi