研究課題/領域番号 |
21K18146
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 |
審査区分 |
中区分13:物性物理学およびその関連分野
|
研究機関 | 大阪大学 |
研究代表者 |
吉野 元 大阪大学, サイバーメディアセンター, 准教授 (50335337)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
25,090千円 (直接経費: 19,300千円、間接経費: 5,790千円)
2023年度: 8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)
2022年度: 8,970千円 (直接経費: 6,900千円、間接経費: 2,070千円)
2021年度: 7,670千円 (直接経費: 5,900千円、間接経費: 1,770千円)
|
キーワード | 深層学習 / ニューラルネットワーク / 情報統計力学 |
研究開始時の研究の概要 |
深層ニューラルネットワーク(DNN)による深層学習は、実用上大きな成功を収めているが、そのメカニズムは明らかになっておらず、未だにブラックボックスである。本研究では、ガラスなど強く乱れた系の物理学から派生した情報統計力学の理論手法によって、DNNによる深層学習のメカニズム解明を目指す。本研究では、まず、訓練データに適合した可能なDNNのデザインパターンの位相空間を考え、そこでの統計力学をレプリカ法によって展開する。またこの位相空間における学習ダイナミックスに関する動的平均場理論を構築し、解析する。さらにこれらの理論結果を、大規模数値シミュレーションによって検証する。
|
研究実績の概要 |
本年度は、深層ニューラルネットワークによる機械学習の統計力学的解析について、以下のような成果が得られた。研究成果は論文"Spatially heterogeneous learning by a deep student machine", Hajime Yoshino, プレプリント arXiv:2302.07419 としてまとめられ、現在投稿中である。 (1) 本研究の準備研究である H. Yoshino, SciPost Physics Core 2.2 (2020) 005で示したレプリカ理論が「密結合」と呼ぶ極限で厳密になることを示した。 ここで、密結合とはパーセプトロンの入力の数をc、ネットワークの幅をNとしたとき、1 << c << Nとなるような極限である。この場合に、ネットワーク内で複数の層を経由して閉じる相互作用ループの寄与が無視でき、H. Yoshino(2020)で得られた自由エネルギーの表式が厳密になることを示した。 (2) 一方、現実の系ではこの「密結合」に対するループ補正が重要になる。一つは、現実のネットワークの幅Nが有限であることによる効果である。もう一つは、現実のデータがもつ「有限次元効果」である。この有限次元Dの効果をhidden manifold model( S. Goldt et. al. 2020))を我々のモデルに組み込むことによって考察した。その結果、これも有限幅N効果と同様に、ループ補正をもたらすことがわかった。このことから、有限幅Nの効果と、有限次元Dの効果は同じように現れることが期待される。実際、このことを下記の数値シミュレーションによって確かめることができた。 (3)昨年度は全結合系のシミュレーションを行なったが、上述の密結合極限を念頭にcとNをパラメータとして教師-生徒シナリオに関する数値シミュレーションを行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
上記の「密結合」は以前の研究H. Yoshino (2020)の時点では気がついていなかったことである。DNNの統計力学で、厳密に解ける模型が得られたことの意義は大きい。ここを起点に様々な今後の理論的展開の可能性が広がる。上述の通り、これに合わせて新たな数値シミュレーションも行い、有意な結果を得ることができた。
また今回の論文(H. Yoshino, arXiv:2302.07419)では、以下のような重要な報告も行った。H. Yoshino (2020)では、教師-生徒シナリオにおいて重要な問題である「汎化性能」の評価がされていなかったがこれについてTishby et. al. (1989)の"one step entropy"の方法を用いて詳細な解析を行った結果を記述した。 over-parametrizationのためにネットワーク中央部に遊び(液体層)が残されるが、ネットワーク両端の「結晶」があるために汎化性能が維持されることが明らかになった。 このことからネットワークの深さLをどんなに深くしてover-parametrizationの度合いを強め、液体領域を増やしても、汎化誤差はLに依存せず、パラメータ alpha=M/N (Mは訓練データの数)のみに依存する値に収束することが予言される。これは一見かなり直感に反する現象であるが、実際に上記の数値シミュレーションによって確かめることができた。この教師-生徒シナリオの数値シミュレーションはH. Yoshino(2020)では行われていなかったもので、今回の論文で初めて報告するものである。
|
今後の研究の推進方策 |
昨年度に引き継き、教師-生徒シナリオに関してCavity法に基づく解析を行う。これにより、レプリカ理論、モンテカルロシミュレーションに加えて第3のアプローチが同じ問題に対して得られることになる。これによって複合的な視点が得られることの意義は大きい。また、新たな学習アルゴリズムとなる可能性もある。
|