Study on learning dynamics of high-dimensional machine learning models and development of efficient learning methods
Project/Area Number |
19K20337
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyushu Institute of Technology (2021) The University of Tokyo (2019-2020) |
Principal Investigator |
Nitanda Atsushi 九州工業大学, 大学院情報工学研究院, 准教授 (60838811)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | 機械学習 / 深層学習 / ニューラルネットワーク / 確率的勾配降下法 / ランジュバンダイナミクス / 確率的最適化法 / 平均場理論 / カーネル法 / 加速分散縮小法 / 超高次元ニューラルネット / 非凸最適化 / 確率的最適化 |
Outline of Research at the Start |
深層ニューラルネットは超高次元非凸モデルであるが,種々の学習テクニックを精密に適用する事で学習が可能となり,優れたパフォーマンスを発揮する事が経験的に示されている. しかしながら,この様な超高次元モデルが正則化無しに高い汎化性能を示す事の理論的解析は未だ発展途上である.また非常に複雑な非線形モデルであるため最適化が困難でありパラメータチューニングに多大なコストを要するという問題もある. 本研究では,超高次元モデルの学習ダイナミクスそのものが汎化性の優れたパラメータを優先的に選択する機能を備えているという考えに基き超高次元モデルの成功を裏付ける為の理論構築及び効率的学習法の開発に取り組む.
|
Outline of Final Research Achievements |
We study learning dynamics of machine learning models, aiming to understand why high-dimensional models such as deep learning work well and to develop efficient learning methods. In particular, we obtained the following results for the (stochastic) gradient descent method, which is a representative learning method. (1) We proved that the classification error converges exponentially under low noise conditions for classification problems using linear models. (2) We proved that the generalization ability of the two-layer neural network trained by the stochastic gradient descent method achieves optimal efficiency by refining the NTK theory. (3) We developed a way for analyzing neural networks based on the functional gradient theory of transport mapping and proposed a new learning method. (4)We developed an optimization dynamics of mean-field neural networks and proved its convergence.
|
Academic Significance and Societal Importance of the Research Achievements |
深層学習の原理解明に向けた二種の最適化理論:NTK理論および平均場ニューラルネットワーク理論の進展に寄与した.具体的にはNTK理論を精緻化しニューラルネットワークを理論上最適な効率で学習可能であることを初めて証明し,またデータへの適応性に優れた平均場ニューラルネットワークの最適化ダイナミクスを解析する新たな研究の流れを創出した. これらの成果は深層学習の最適化ダイナミクスの基礎を与えるもので,深層学習の効率化への重要なステップである.
|
Report
(4 results)
Research Products
(39 results)
-
-
-
-
-
-
-
-
-
-
[Journal Article] Hyperbolic Ordinal Embedding2019
Author(s)
Atsushi Suzuki, Jing Wang, Feng Tian, Atsushi Nitanda, and Kenji Yamanishi
-
Journal Title
In Proceedings of Machine Learning Research (ACML2019)
Volume: 101
Pages: 1065-1080
Related Report
Peer Reviewed / Open Access
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-