Research Abstract |
データマイニング・人工知能・パターン認識などの分野において機械学習の道具として用いられている多層パーセプトロン・ガウス混合分布・ベイジアンネットワーク・隠れマルコフモデルなどは,パラメータ値の識別可能性が失われるモデルであり,これらは,特異モデルと呼ばれている.特異モデルは,識別可能性の欠如のため,通常の統計的漸近理論が適用できないモデルであることが知られており,したがって,応用上のモデル選択などの設計および学習の収束性に関する理論的枠組みが与えられていない状況である.本研究では,特に,多層パーセプトロンについて,真のパラメータ値の識別可能性が失われる場合の統計的性質を解析した. 本研究では,まず,多層パーセプトロンの学習誤差の確率的下界を導出した.一般に,学習誤差の確率的下界はO_p(log n)となることが示されている.本研究では,VC次元を用いたε-covering numberの議論を基底関数のクラスに適用し,学習誤差の評価をε-cover上のガウス過程の最大値を求める問題に帰着させた.この下で,基底関数の従属性により決まるガウス過程の相関構造を考慮することで,関数のクラスを制約した場合の学習誤差の下界がO_p(loglog n)となり得ることを示した.この議論をガウシアン素子に適用し,雑音に対するオーバーフィッティングにおいて,幅パラメータの推定値が極端に小さい範囲に限られることを示した.この結果は,雑音に対するオーバーフィッティングにおいて,急峻な出力が得られやすいという経験的事実を理論的に裏付けるものである.本研究では,さらに,多層パーセプトロンのもつ基底が可変である性質をもつ簡単化した直交基底可変型関数の学習誤差と汎化誤差の期待値を解析した.その結果、学習誤差に基づき汎化誤差の不偏推定量を構成する場合,真のパラメータ数の情報が必要となることを明らかにした.したがって,学習誤差に基づく汎化誤差の不偏推定量としてモデル選択規準を構成することは困難であることが明らかとなった.この結果は,多層パーセプトロンを含む基底可変型の関数について普遍の性質である.一方で,直交基底可変型関数については,適当な縮小推定を導入することで,学習誤差と既知の情報から汎化誤差の不偏推定量を構成できることを示した.
|