研究概要 |
(1)ODE(one dependence estimator)の荷重付き和に関して、荷重値の定め方を様々試みた。等加重やBayesian model averaging以外に、相互情報量、Kullback-Leibler divergence(KLd)等に基づくものを試みた。相互情報量は厳密に求めるより、クラス変数との相互情報量がよい結果を与えた。また、KLdの場合は次元解析によりKLdそのものよりデータ一個あたりの平均値の方がよいと推測されそのような結果が得られた。相互情報量とKLdに基づくものはほぼ同等の汎化能力を有するが荷重値は全く異なるものである。比較には10CVを10回以上反復してt検定を行ったものである故それなりの信頼性がある。なお、様々な理論的方法によりその良さの原因を追究したが、明らかにすることができなかった。 (2)上記の過程で、VC次元を用いた汎化能力の評価が使える可能性があることに思い至り、これを試みた。個々のestimatorの確率分布が指数関数で表現できる場合のVC次元の上界を求める研究をまず行った。KhovanskiiによるFewnomialsを用いた議論により、W^2h^2が一つの上界であることが分かった(Wは自由度,hはmodel数)。Khovanskiiの結果の改良は殆どなされていないため、これ以上よい上界を求めることは困難であると思われた。しかし、VC次元を求める過程を精査すると、かなり特殊な関数方程式を対象としていることに気が付いた。具体的には、Fewnomialsでは解の個数を多様体間のlinking indexに制約をおかずに求めているが、VC次元を求める場合には、linking indexには強い制約が置けるという点である。これにより、Wh log Wが上界となりうることが分かった。
|