Project/Area Number |
23K16965
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
唐木田 亮 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (30803902)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2027: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2026: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | ニューラルネットワーク / 深層学習 / 機械学習 / 力学系 / 最適化 / 統計物理 / 統計力学的解析 / ランダム行列 |
Outline of Research at the Start |
本研究課題では, 深層学習に代表されるニューラルネットを用いた機械学習および人工神経回路の数理的基盤となる枠組みを, ランダム結合をもつニューラルネットに基づいた可解モデルによって構築する. 深層学習ではモデルが高次元の非線形変換を繰り返すだけでなく, 多種多様な学習手法の組合せが性能を決めており, そのままでは理論的な取り扱いが困難である. この問題に対し, ランダム結合パラメータを持つモデルでは複雑な動作を粗視化し, 性能を決める少数次元の理論式に縮約できる. また, 粗視化によって, モデルや学習の設定の詳細に依存しない普遍的な数理的基礎付けが実現できると期待される.
|
Outline of Annual Research Achievements |
本研究の目的は, 深層学習に代表されるニューラルネットを用いた機械学習および人工神経回路を理解するための数理的基盤となる可解模型を, ランダム神経回路を起点に整備・拡張を実施することである. 非線形変換の部分的な線形化を利用することで, 従来は解析が困難だった学習の問題に対し, 数理的な理解や新しい法則の発見を目指す. 本年度はまず対角線形ネットと呼ばれる可解模型の解析を進めた. 具体的には解の探索を動的に支配する勾配正則化において, 望ましい学習レジーム(リッチレジーム)への陰的バイアスが働いていることを明らかにした. これはパラメータの非線形性があるがゆえに, 勾配法の動的な解の選択が生じる例となっており, ある程度大きな有限学習ステップの重要性まで示唆している. ベンチマークにおける実験的な実証も合わせて行い, この可解模型の挙動が定性的に複雑なモデルの挙動を捉えていることを支持している. さらに本研究は, 一見関係がみえないSAMやFloodingといった最急降下と上昇を組合せる手法が有限差分をとおして勾配正則化につながることまで明らかにした点も機械学習の観点から興味深い成果である. また, 本年度はランダム神経回路の一系統である連想記憶モデル, 具体的にはModern Hopfield Network (MHN)においても成果を得た. MHNにはモデルA,B,Cの3系統が知られており, 特にモデルBは注意機構に対応する. これらのモデルのエネルギーから自然にボルツマンマシンを導入できるが, モデルAが指数型分布族調和モデルに含まれ, モデルBがガウス-ベルヌーイRBMの近似となることが判明した. 後者は尤度が解析的に可解な点でも興味深い. このような様々な非線形変換のモデル分類が進むことで, より込み入ったモデルの理解の基盤となることが期待できる.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
対角線形ネットは深層学習で開発されたアルゴリズムや学習手法の挙動を矛盾なく説明できる最も単純な可解モデルと期待される. 線形ネットという名前のとおり, 線形写像ではあるが, パラメータは非線形性を持つ. このモデルで, 動的な平坦な解探索の実装上まず第一に考えられる一次勾配ベースの正則化を解析できたことは, より込み入った陽な/陰な正則化を理解・開発するうえで重要な知見となることが期待できる.このような成果を機械学習のトップ国際会議のひとつで発表できたことは十分な成果といえるだろう. また連想記憶モデルについては単層の観点から整備を進めることができた. 特に, 注意機構型の連想記憶モデルは統計力学的な解析の観点から注目を集めているもので, その新規性や意義について, ボルツマンマシンの観点から示唆を与えている. すなわちボルツマンマシンとしてはたしかに新しいものであるが, 既存のRBMと大きな差はないことをいくつかの解析で明らかにしている. 近年の深層学習が基盤とする自己注意機構の理解につながるかは後述のとおり今後の課題であるが, そうした問題提起につながる点でも重要なステップとなったといえる.
|
Strategy for Future Research Activity |
本年度は幅無限大におけるランダム神経回路の解析は成果としてあげていないため, これを達成することは目的のひとつである. 特に, 近年は特徴学習レジームを実現するパラメータ表示の同定が重要な課題となっており, 知識転移や込み入った学習手法に対して, どこまで定量的な示唆が与えられるかが本課題にとっても重要である. また, 本年度は単層のクロスアテンションに対してある程度の洞察をえたが, 自己注意機構については通常のHopfield networkエネルギーとは相互作用の入り方が異なるため, 理解が単純には及ばない. ランダム神経回路あるいは別系統の理想化によって, その限界や利点を明らかにすることが課題となるだろう. 最後に, 本課題は単純なモデルがまだ確立されていない機械学習の問題において可解モデルから知見を与えることを大目標のひとつとしている. 特に知識転移については本年度は予備的成果にとどまったので, 重点的に進めることが望ましい.
|