2011 Fiscal Year Annual Research Report
機械学習による高次元小標本データ解析法の開発と暗号解読への応用
Project/Area Number |
21700308
|
Research Institution | Kyushu University |
Principal Investigator |
川喜田 雅則 九州大学, 大学院・システム情報科学研究院, 助教 (90435496)
|
Keywords | 重み付き尤度法 / 半教師付き学習 / 統計的パラドックス / 密度比推定 |
Research Abstract |
1.重み付き尤度を用いた半教師付き学習の理論的解析 例えラベル付きデータが小標本であってもラベル無しデータが大量に得られることな少なくない。その場合、推定した密度比を重みに用いた重み付き尤度法が有効であることはsokolovskaらによって知られている。本研究ではこの構造が統計学で知られているパラドックス的現象「例え撹乱パラメータの真の値が既知であっても、その値を破棄して推定した方が興味パラメータの推定精度が良くなる」と関連が深いことを示した。 この方法の利点は他の多くの半教師付き学習とは異なり、特に何の仮定をせずとも理論上は教師付き学習より悪くなることはないという点にある。ただしSokolovskaらの方法はラベル無しデータの数はラベル付きデータより多いという仮定は必要である。本研究ではこの点を改良し、漸近的たはラベル無しデータが一つでもあれば推定精度を改良する方法を提案した。 また近年密度比の推定において、分母分子の密度を別々に推定するのではなく密度比そのものを直接推定する方法が盛んに研究されている。この密度比推定を用いたときのある意味で最適な推定方法及び半教師付き学習が教師付き学習をどの程度改善するかを明らかにした。 2.密度比推定を用いた半教師付き学習のモデル選択 前年度までにラベル付きデータが小標本でも有効なモデル選択基準を提案した。しかしこのモデル選択を用いた実験では理論とは異なり、教師付き学習より悪化する場合があった。今年度は上記のモデル選択基準を応用して高い確率で教師付き学習を改良する方法を提案した。
|