本研究は、機械学習において、与えられた例題の数と機械の性能の関係を、情報幾何学的手法により理論的に解決しようというものである。本研究では、学習の良さの評価に予測誤差を用いる。予測誤差とは、新規の問題がランダムに選ばれて与えられた時の機械の出力誤差の期待値である。その値は与えられた例題に依存するので、例題もランダムに選ばれるとしてその期待値をとる。それにより、予測誤差は与えられた例題数の関数になる。パラメータに対して出力が滑らかな関数である機械の予測誤差はパラメータ数m、例題数tの時にm/tとなることが知られているが、滑らかでない機械で最も単純な、線形分離機械では0.66m/tになることが実験的に知られている。そこで、線形分離機械の予測誤差を調べた。線形分離機械では与えられた例題が半球面上の点群になることを利用し、積分幾何学を用いて点群の凸包の面の数の期待値を求め、これとオイラの関係式から予測誤差の新しいバウンドを導いた。また、与えられたデータが不完全である場合についても考察した。不完全データから、欠損部分とパラメータの双方を反復的に推定する方法として、EMアルゴリズムがよく知られている。本研究では、例題数が大きく漸近論が適用可能である場合に、EMアルゴリズムで推定されたパラメータがどのような分布に従うかを調べた。その結果、真のパラメータを推定モデル空間に射影した点を中心とする正規分布をすることがわかった。原理的には、推定パラメータの分布から予測誤差が求められるのであるが、分布自体が複雑な式で表されるために予測誤差の導出には至らなかった。これが今後の課題である。
|