本研究課題では、機械学習において最も重要な問題の一つである2値分類問題を取扱った。従来、記号データから学習を行うためには、(i) それを直接取扱うことのできる分類器モデルを用いるか、(ii) 数値データに変換して数値用の分類器モデルを用いるか、いずれかのアプローチが用いられてきた。一般に (i) はデータベクトル間の距離や順序関係に関する概念を用いず、(ii) は両方の概念を併せ持つ。本研究課題では上記 (i) (ii)のいずれとも異なる新しい学習手法の確立を目指し、順序関係のみに着目した記号データ学習に挑んだ。 任意の学習モデルがデータ空間を分割して部分空間のランキング(順序付け)を暗に生成することに着目し、以下の2点を明らかにした。また提案手法の一部をデータマイニングソフトウェアWekaの上で利用できるように実装作業を行った。 (1)真のランキングが与えられた人為的なデータで数値実験を行ったところ、決定木が生成するランキングと真のランキングの間のケンドール距離は、汎化誤差と高い相関を持つことを確認できた。 (2)解析を行った結果、分類器が生成するランキングと2値ランキングの間のケンドール距離は、分類器の学習性能の評価指標の一つである AUC と分類器の複雑さに相当する値の和で表されることがわかった。(ここに2値ランキングとは、任意の正事例は任意の負事例に先立ち、同クラスの事例は等位に配されるようなランキングである。)AICやMDLなど、導出量に類する指標が汎化誤差と高い相関を持つことは既に学習理論の分野で広く知られており、我々の視点の妥当性が示唆されている。
|