Research Abstract |
本研究では,階層型ニューラルネットワークによる非線形回帰モデルのモデル選択規準を導出することを目的とし,ネットワーク識別可能でない場合の統計的性質,特に,モデル選択規準を導く上で重要な学習誤差の期待値および汎化誤差の期待値を二乗誤差規模の下で解析する.一般に,必要以上の個数のパラメータをもつ回帰関数により最小二乗推定を行う場合,データの雑音成分に対するオーバーフィッティングが問題となる.モデル選択規準では,これを補正するためのペナルティ項を学習誤差の期待値と汎化誤差の期待値の差として導出することが本質的となる.ところが,雑音成分をフィッティングする場合のネットワークは識別可能性を失うことが知られており,そうした場合の学習誤差および汎化誤差の期待値を知るためには,通常の漸近理論は適用できない.そこで,本研究では,雑音成分に対してネットワークの与える学習誤差の期待値および汎化誤差の期待値を解析する.そのために,まず,指標関数の線形結合により正規雑音列をフィッティングする問題を考え,この場合の学習誤差および汎化誤差の期待値の計算がX^2分布に従う独立な確率変数列の最大値の期待値の計算に帰着されることを示すとともに,その場合の学習誤差および汎化誤差の期待値を極値理論(Leadbetter et al.:1983,、Resnik:1987)を用いて漸近的な意味で求めた.この結果に基づき,Radial Basis Functionネットワークやbell型の関数あるいはsigmoid関数の2つの和を中間子素子の出力関数としてもつ3層階層型ニューラルネットワークに対して,学習誤差の期待値が,s^2-s^2n log L/Lなるtrivialでない上界をもつことを示した.ここで,s^2は雑音分散,nはネットワークの中間素子数あるいは基底数,Lはデータ数である.これは,ネットワークが識別可能な場合に通常の漸近論を用いて導かれる学習誤差の期待値s^2-s^2N/Lより小さい.ここで,Nはネットワークの全パラメータ数である.また,入力が確率的でない場合について,汎化誤差の期待値がs^2+s^2n log L/Lなる下界をもつことを示した.これは,通常の漸近論により導かれる汎化誤差の期待値s^2+s^2N/Lより大きい.さらに,正規分布の絶対値の最大値に関するDeo:1972の結果を用いて,学習誤差は確率1でs^2-s^2log L/Lより小さく,汎化誤差は確立1でs^2+s^2log L/Lより大きくなることを示した.こうした結果は,通常の漸近論に基づき導かれたモデル選択規準Network Information Criterion(Murata,Yoshizawa,Amari:1994)によるネットワークのモデル選択では,必要以上に大きいサイズのネットワークが選ばれてしまうことを意味する.さらに,本研究では,関数空間におけるcovering numberの概念に基づくPollard:1984およびHaussler:1992のpuseudo dimensionの理論と極値理論を導入することで,ある制約を設けたGaussian素子について,学習誤差の期待値のオーダーおよびその確率的なオーダーを導くとともに,入力が確率的でないという仮定の下で,汎化誤差の期待値のオーダーおよびその確率的なオーダーを導いた.今後は,この結果を一般的なRadial Basis Functionネットワークに拡張する予定である.
|