平成14〜15年度の研究(課題番号14580429)において、シンボリック・データ(量的記述と質的記述の混在を許したデータ)に対して定義された、相互近隣グラフ、およびクラス間相互近隣グラフとよぶグラフの概念を用いて、「概念クラス間の分離の良さ」と「概念クラスの記述の一般性」を同時評価する特徴選択の方法を開発してきた。この方法においては、概念クラスAのサンプルs_kで、対立する概念クラスBのサンプル群を「良く見晴らす」ことが出来て、しかもそのサンプルs_kから見て、概念クラスAのサンプル群も「良く見晴らす」ことが出来る。そのようなサンプルs_kと、s_kからの「見晴らしの良さを保証する特徴組」F_kを見いだすことが、基本的考え方である。一般に、s_kとF_kの対は、問題に依存してm組存在する。もし、どのサンプルs_kについても、同じ特徴組(F_1=F_2=【triple bond】=F_m)が得られるときは、良く知られた多くの識別法を適用可能である。しかし、特徴組がサンプルに依存して異なるときは、特徴組F=F_1∪F_2∪【triple bond】∪F_mを用いる必要がある。このことは、次元の高い特徴空間における識別を強いることになり、良く知られた次元の呪いの問題に落ち込むことを意味する。そこで、サンプル毎に異なる特徴組が存在する事実に素直に従うとすれば、与えられた識別すべき入力パタンに応じて、最も相応しい特徴組を動的に選択する方法が必要となる。これによって、識別に要する特徴組を平均的に減少させることができるからである。本研究は、このような「動的特徴選択」に基づく識別法の開発を目的としている。本年度は、最近隣法や決定木に、どのように動的特徴選択の方法を組み込むかを、試行錯誤してきた。幾つかの実験において、動的特徴選択の効果を確認できている。今後、C4.5やCARTのような方法との比較も行い、本方法の有用性を確認したい。
|