研究概要 |
機械学習は,内部にパラメータをもつ学習モデルを仮定し,外部から与えられる多数の訓練データに潜む法則や数学的な構造を推論するものである.学習モデルが内部パラメータを変えることにより,望ましい出力を獲得していく過程を「学習」と呼ぶ.しかし,学習モデルの1つである多層パーセプトロンは学習が途中で停滞してしまうという問題を抱えている.階層構造をもつ学習モデルではパラメータ数の少ない小さなモデルが大きなモデルのパラメータ空間に特異構造を生み出すことが原因であると考えられる.本年度は,情報幾何学的手法を用いて学習過程のダイナミクスと損失関数の極値の安定性を解析した.学習データは学習者の知りえない確率分布にもとづいて確率的に発生される.したがって,学習のダイナミクスは確率差分方程式で与えられる.それを確率分布による期待値で置き換えた平均学習方程式の動作を解析することにより,ダイナミクスの解析を行った.平均学習方程式をもちいて,特異点の近傍に現れる2つの部分多様体(slow manifoldとfast manifold)の解析をおこなった.真のパラメータが特異点近傍にある場合と特異点から離れたところにある場合のダイナミクスの振る舞いを解析した.学習の停滞現象はパラメータ空間の対称性に起因するものであることが徐々に明らかになってきた.対称性は隠れユニットの入れ替え対称性によるものであり,パラメータが同定不能となる. パラメータ空間の構造を明らかにし,単純なモデルの特異点近傍での学習ダイナミクスのふるまいを数学的に解析した.
|