研究課題/領域番号 |
21K18146
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 |
審査区分 |
中区分13:物性物理学およびその関連分野
|
研究機関 | 大阪大学 |
研究代表者 |
吉野 元 大阪大学, サイバーメディアセンター, 教授 (50335337)
|
研究期間 (年度) |
2021-07-09 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
25,090千円 (直接経費: 19,300千円、間接経費: 5,790千円)
2023年度: 8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)
2022年度: 8,970千円 (直接経費: 6,900千円、間接経費: 2,070千円)
2021年度: 7,670千円 (直接経費: 5,900千円、間接経費: 1,770千円)
|
キーワード | 深層学習 / ニューラルネットワーク / 情報統計力学 |
研究開始時の研究の概要 |
深層ニューラルネットワーク(DNN)による深層学習は、実用上大きな成功を収めているが、そのメカニズムは明らかになっておらず、未だにブラックボックスである。本研究では、ガラスなど強く乱れた系の物理学から派生した情報統計力学の理論手法によって、DNNによる深層学習のメカニズム解明を目指す。本研究では、まず、訓練データに適合した可能なDNNのデザインパターンの位相空間を考え、そこでの統計力学をレプリカ法によって展開する。またこの位相空間における学習ダイナミックスに関する動的平均場理論を構築し、解析する。さらにこれらの理論結果を、大規模数値シミュレーションによって検証する。
|
研究実績の概要 |
2023年度は、生徒-教師シナリオに基づいたDeep Neural Network(DNN)による学習をmessage passingによって行う方法の構築を行なった。(Cavaliere-吉野) Message passingはレプリカ理論(Yoshino 2020, 2023)と相補的なアプローチであり、かつ新しい学習アルゴリズムとして用いることも可能である。ネットワークのアーキテクチュアとしてはYoshino 2020, 2023と同じく、深さL 幅N の長方形DNNを用いた。ただし今回はシナプス結合は連続値ではなく+-1の離散値を取る模型を採用した。そのためにまずこの系に適合したレプリカ理論を構築し、生徒ー教師シナリオの場合の学習を解析した。その結果、連続値の場合Yoshino2020,2023と定性的に同じような結果が得られることを確かめた。次に、シナプス結合が十分密であることを念頭に、relaxed BP のアルゴリズムを具体的に構成し、生徒ー教師シナリオでの解析を開始した。その結果、ネットーワークがそれほど深くない場合には、アルゴリズムの収束性が良く、レプリカ理論と一致する結果を得ることに成功した。ネットワークが深くなった場合の収束性の改善は来年度の課題である。 またこれに並行し、これまでの人工データに基づく学習の統計力学的解析(Yoshino 2020,2023)から得られた知見を基に、現実の画像データ(MNIST)の分類・ノイズ除去を行う深層学習の統計力学的解析を大規模数値計算によって行った。その結果、深層学習に標準的に用いられているSGDによってある種の定常状態が達成されること、人工データの場合と同様に学習がネットワーク内で空間的に不均一になることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
message passing の方法の開発がほぼ予定通り進行した。この際、シナプス結合が離散値をとる場合のレプリカ理論も併せて構築し、シナプス結合が連続値を取る場合(Yoshino 2020, 2023)と同じように空間的に不均一な学習が起こることを確かめることもできた。 これは深層学習における統計力学的性質の普遍性を示唆するものと言える。さらにmessage passing の方法でレプリカ法の結果と整合する結果を得つつある。レプリカ理論はexactな解を与えていると信じられるが、rigorousな方法ではない。そのため別ルートでの検証ができつつあることは大変重要である。またこの研究では、Yoshino2023で指摘した、ローカルな対称性(i)同じ層内でのパーセプトロンの置換(ii) パーセプトロン毎の局所的なゲージ変換、を崩してマシン間の重なり(overlap)を有限系でも測定可能にする工夫を行なったことが功を奏している。この方法は今後のsimulationによる研究でも活用できる。 一方で、人工データに基づいたこれまでの研究を超えて、現実の画像データ(MNIST)を用いた大規模数しシミュレーションによって、これまでの統計力学的な理論解析で予言していた「空間的に不均一な学習」が、現実的な設定の深層学習でも確かめられたことの意義は大変大きい。またSGDによる学習ダイナミックスによって系が定常状態に達し、ある種の熱平衡が起こっていることが確かめられたことの意義も大きい。
|
今後の研究の推進方策 |
2023年度に引き継き、教師-生徒シナリオに関してmessage passingで学習を行うアルゴリズムの開発を進める。この際、ネットワークが深くなった際のアルゴリズムの収束性を改善する工夫を行うことがポイントとなる。レプリカ理論の結果との詳細な比較もより詳しく行い、理論の相互チェックを進める。これに並行し、Fashion MNIST、CIFAR-10などより複雑なデータについても大規模数値シミュレーションによる解析を行い、統計力学的性質の普遍性を明らかにする。さらに、人工データに基づく統計力学的理論についても、これまで無視されてきたデータの相関の効果を取り入れる拡張を行う。
|