研究実績の概要 |
本研究の目的は, 深層学習に代表されるニューラルネットを用いた機械学習および人工神経回路を理解するための数理的基盤となる可解模型を, ランダム神経回路を起点に整備・拡張を実施することである. 非線形変換の部分的な線形化を利用することで, 従来は解析が困難だった学習の問題に対し, 数理的な理解や新しい法則の発見を目指す. 本年度はまず対角線形ネットと呼ばれる可解模型の解析を進めた. 具体的には解の探索を動的に支配する勾配正則化において, 望ましい学習レジーム(リッチレジーム)への陰的バイアスが働いていることを明らかにした. これはパラメータの非線形性があるがゆえに, 勾配法の動的な解の選択が生じる例となっており, ある程度大きな有限学習ステップの重要性まで示唆している. ベンチマークにおける実験的な実証も合わせて行い, この可解模型の挙動が定性的に複雑なモデルの挙動を捉えていることを支持している. さらに本研究は, 一見関係がみえないSAMやFloodingといった最急降下と上昇を組合せる手法が有限差分をとおして勾配正則化につながることまで明らかにした点も機械学習の観点から興味深い成果である. また, 本年度はランダム神経回路の一系統である連想記憶モデル, 具体的にはModern Hopfield Network (MHN)においても成果を得た. MHNにはモデルA,B,Cの3系統が知られており, 特にモデルBは注意機構に対応する. これらのモデルのエネルギーから自然にボルツマンマシンを導入できるが, モデルAが指数型分布族調和モデルに含まれ, モデルBがガウス-ベルヌーイRBMの近似となることが判明した. 後者は尤度が解析的に可解な点でも興味深い. このような様々な非線形変換のモデル分類が進むことで, より込み入ったモデルの理解の基盤となることが期待できる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
対角線形ネットは深層学習で開発されたアルゴリズムや学習手法の挙動を矛盾なく説明できる最も単純な可解モデルと期待される. 線形ネットという名前のとおり, 線形写像ではあるが, パラメータは非線形性を持つ. このモデルで, 動的な平坦な解探索の実装上まず第一に考えられる一次勾配ベースの正則化を解析できたことは, より込み入った陽な/陰な正則化を理解・開発するうえで重要な知見となることが期待できる.このような成果を機械学習のトップ国際会議のひとつで発表できたことは十分な成果といえるだろう. また連想記憶モデルについては単層の観点から整備を進めることができた. 特に, 注意機構型の連想記憶モデルは統計力学的な解析の観点から注目を集めているもので, その新規性や意義について, ボルツマンマシンの観点から示唆を与えている. すなわちボルツマンマシンとしてはたしかに新しいものであるが, 既存のRBMと大きな差はないことをいくつかの解析で明らかにしている. 近年の深層学習が基盤とする自己注意機構の理解につながるかは後述のとおり今後の課題であるが, そうした問題提起につながる点でも重要なステップとなったといえる.
|
今後の研究の推進方策 |
本年度は幅無限大におけるランダム神経回路の解析は成果としてあげていないため, これを達成することは目的のひとつである. 特に, 近年は特徴学習レジームを実現するパラメータ表示の同定が重要な課題となっており, 知識転移や込み入った学習手法に対して, どこまで定量的な示唆が与えられるかが本課題にとっても重要である. また, 本年度は単層のクロスアテンションに対してある程度の洞察をえたが, 自己注意機構については通常のHopfield networkエネルギーとは相互作用の入り方が異なるため, 理解が単純には及ばない. ランダム神経回路あるいは別系統の理想化によって, その限界や利点を明らかにすることが課題となるだろう. 最後に, 本課題は単純なモデルがまだ確立されていない機械学習の問題において可解モデルから知見を与えることを大目標のひとつとしている. 特に知識転移については本年度は予備的成果にとどまったので, 重点的に進めることが望ましい.
|