記号データから計算によって学習を行うための従来のアプローチは、記号データを直接取扱うことのできるモデルを用いるか(決定木や決定表など)、数値データに変換して分離平面を構成するか(SVMなど)のいずれかに大別される。一般に前者はデータベクトル間の距離や順序関係に関する概念を用いず、後者は距離を用いるため、結果的として順序関係をも取扱う。 本研究では順序関係のみに着目した新しい学習手法の確立を目指し、昨年度は学習アルゴリズムのプロトタイプを2つ開発した。1つ目のプロトタイプでは、記号ベクトル空間における半順序関係を何らかの方法によって定め、訓練集合における誤りベクトル数を最小化するような整数計画問題(MIP)を解くことによって空間分割を学習する。テストデータの分類は、定められた半順序関係と学習された分割を基準として行う。このプロトタイプの問題点として、学習される分類器の性能は然程高くない、空間分割にMIPを用いる以上スケーラビリティに難があることが挙げられる。 2つ目のプロトタイプでは、(決定木が定める)訓練集合上の全順序と、「理想的な」全順序の距離を最小化するように決定木を構成する。学習能力・スケーラビリティ共にある程度の精度を達成できたが、パラメータの制御(特に「理想的な」全順序の設定)が困難という欠点がある。 以上のようなプロトタイプを開発したことにより、今後の見通しを良くすることができた。しかし同時に問題点も明らかになったため、これらを次年度以降の課題とする。
|