2022 Fiscal Year Research-status Report
Statistical Mechanical Informatics of Deep Neural Networks
Project/Area Number |
21K18146
|
Research Institution | Osaka University |
Principal Investigator |
吉野 元 大阪大学, サイバーメディアセンター, 准教授 (50335337)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | 深層学習 / ニューラルネットワーク / 情報統計力学 |
Outline of Annual Research Achievements |
本年度は、深層ニューラルネットワークによる機械学習の統計力学的解析について、以下のような成果が得られた。研究成果は論文"Spatially heterogeneous learning by a deep student machine", Hajime Yoshino, プレプリント arXiv:2302.07419 としてまとめられ、現在投稿中である。 (1) 本研究の準備研究である H. Yoshino, SciPost Physics Core 2.2 (2020) 005で示したレプリカ理論が「密結合」と呼ぶ極限で厳密になることを示した。 ここで、密結合とはパーセプトロンの入力の数をc、ネットワークの幅をNとしたとき、1 << c << Nとなるような極限である。この場合に、ネットワーク内で複数の層を経由して閉じる相互作用ループの寄与が無視でき、H. Yoshino(2020)で得られた自由エネルギーの表式が厳密になることを示した。 (2) 一方、現実の系ではこの「密結合」に対するループ補正が重要になる。一つは、現実のネットワークの幅Nが有限であることによる効果である。もう一つは、現実のデータがもつ「有限次元効果」である。この有限次元Dの効果をhidden manifold model( S. Goldt et. al. 2020))を我々のモデルに組み込むことによって考察した。その結果、これも有限幅N効果と同様に、ループ補正をもたらすことがわかった。このことから、有限幅Nの効果と、有限次元Dの効果は同じように現れることが期待される。実際、このことを下記の数値シミュレーションによって確かめることができた。 (3)昨年度は全結合系のシミュレーションを行なったが、上述の密結合極限を念頭にcとNをパラメータとして教師-生徒シナリオに関する数値シミュレーションを行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
上記の「密結合」は以前の研究H. Yoshino (2020)の時点では気がついていなかったことである。DNNの統計力学で、厳密に解ける模型が得られたことの意義は大きい。ここを起点に様々な今後の理論的展開の可能性が広がる。上述の通り、これに合わせて新たな数値シミュレーションも行い、有意な結果を得ることができた。
また今回の論文(H. Yoshino, arXiv:2302.07419)では、以下のような重要な報告も行った。H. Yoshino (2020)では、教師-生徒シナリオにおいて重要な問題である「汎化性能」の評価がされていなかったがこれについてTishby et. al. (1989)の"one step entropy"の方法を用いて詳細な解析を行った結果を記述した。 over-parametrizationのためにネットワーク中央部に遊び(液体層)が残されるが、ネットワーク両端の「結晶」があるために汎化性能が維持されることが明らかになった。 このことからネットワークの深さLをどんなに深くしてover-parametrizationの度合いを強め、液体領域を増やしても、汎化誤差はLに依存せず、パラメータ alpha=M/N (Mは訓練データの数)のみに依存する値に収束することが予言される。これは一見かなり直感に反する現象であるが、実際に上記の数値シミュレーションによって確かめることができた。この教師-生徒シナリオの数値シミュレーションはH. Yoshino(2020)では行われていなかったもので、今回の論文で初めて報告するものである。
|
Strategy for Future Research Activity |
昨年度に引き継き、教師-生徒シナリオに関してCavity法に基づく解析を行う。これにより、レプリカ理論、モンテカルロシミュレーションに加えて第3のアプローチが同じ問題に対して得られることになる。これによって複合的な視点が得られることの意義は大きい。また、新たな学習アルゴリズムとなる可能性もある。
|
Causes of Carryover |
本研究で特任研究員として雇用を予定していた海外在住の研究者がコロナ感染拡大のために初年度に来日することできなかった。しかし幸い、この研究者は今年度4月に来日し、特任研究員として雇用することができた。2023年度においての本研究の予算使用計画に関しては問題ないと判断される。
|