平成13年度の研究目標は、相関分析における特徴選択法の確立であった。多次元データに埋もれた因果関係を見いだす相関分析は、データマイニングにおける主要なテーマの一つである。もし、多次元データの中に関数構造のような因果関係が存在するとすれば、因果関係を与える特徴の組に関して、データは幾何学的に薄い構造を有するはずである。したがって、指定した特徴の組について、幾何学的に薄い構造か否かを評価する方法を見いだせば良い。 与えられた有限個のサンプル群が、指定された特徴の組に関して幾何学的に薄い構造を有するとすれば、サンプル群は特定の領域に偏って存在すると考えられる。したがって、サンプル群が空間全体に均質に散布している状態に比して、どの程度狭い範囲に偏って散布しているかを合理的に評価する機構を開発すれば良いことになる。このような考え方に沿って、まず特徴が2つに限定されているときに、カルホーン相関係数を開発した(電子情報通信学会論文誌採録)。任意の2つのサンプルを指定したとき、そのサンプルを横切る、座標軸に垂直・水平の4本の軸を引き、生成された9つの領域に含まれるサンプルの数(サンプル含有数)を数える。つぎに、サンプル対を変化させて、各領域におけるサンプル含有数の総計(総合サンプル含有数)をとる。カルホーン相関係数は、総合サンプル含有数の最小値と最大値の比を用いて、サンプル群の偏りを評価する。カルホーン相関係数は、良く知られたピアソンの相関係数のように、直線的な関係に高い評価値を与えるばかりでなく、指数関数、各種多項式関数、さらに、線形的関数の重ね合わせなど、幾何学的に薄い多くの因果関係に高い評価値を与える。 今後、カルホーン相関係数のさらなる改良を行うと同時に、3つ以上の特徴の組に適用可能な、より一般的な評価法の開発を試みる。
|