本研究は、データマイニングにおける特徴(属性)選択法の開発を目的としている。一般にデータ解析やデータマイニングにおいては、常にサンプルの集合と個々のサンプルを記述する特徴の集合を対にして考える必要がある。本研究では、判別解析のための特徴選択法と、相関分析のための一般的な相関評価法の開発を目標としたが、以下のような成果が得られた。 1)判別解析のための特徴選択法 判別の機構を設計するとき、与えられるサンプルの数が有限である以上、サンプルの記述に用いられる特徴を新たに付加することが、必ずしも判別の精度向上につながらない。このような性質を、近隣グラフの概念を使って理論的に示した。つぎに、クラス間の分離能力と、クラスの記述の一般性を同時に評価する特徴選択の方法として、変形0-1整数計画に基づくアルゴリズムを開発した。また、より簡便な方法として、Generality ordered mutual neighborhood graphとGenerality ordered interclass mutual neighborhood graphとよぶ、2つの新たな近隣グラフに基づく特徴選択アルゴリズムを開発した。 2)相関分析のための一般化された相関係数 相関分析において、特徴間の相関の程度を評価する尺度が有用である。本研究では、2つの特徴の間に因果性があれば、例えば任意の関数のグラフのように、サンプルの集団は、そのようなグラフに沿った幾何学的に薄い構造を有する。このようなサンプルの分布の幾何学的な厚みを合理的に評価する尺度として、カルホーン相関係数を提案した。3つ以上の特徴間の因果関係を評価可能な尺度の開発が、今後の課題である。
|