研究概要 |
本研究の目的は、問題クラスとしては難しいがデータによっては簡単に解ける問題に対し、データ依存の問題の複雑さの指標を提案し、その指標により単純な問題をより効率的に解くアルゴリズムを考案することである。 本年度は、そのような問題の1つである「Sperner族からなる概念クラスに属する概念の列挙」問題において、Sperner族からなる概念クラスCの複雑さの指標として、Cのintersection closureのVC次元を考え、この指標における複雑度が低いデータに対し、既存のアルゴリズムがより速く列挙できることを実験により確認した。この問題は、データマイニングの分野で盛んに研究されている「極大頻出アイテムセット列挙問題」、パターン認識で研究されている「サブクラス問題」をインスタンスとして含む。特に「サブクラス問題」では、属性数が10未満のデータに対してしか超矩形サブクラスの列挙ができていなかったが、「極大頻出アイテムセット列挙問題」のアルゴリズム(IBE,LCMmax)を改造することにより、属性数が10以上のいくつかのデータに対しても(1日以内で)列挙可能となった。 列挙されたサブクラスを識別やルール表現として使う場合、すべてのものを使うより、より少ない代表的なものを使う方が有効である場合が多い。そこで、与えられた正例集合の、サブクラスによる貪欲被覆を求める問題を応用として考え、列挙よりも効率的に行えるアルゴリズムを開発した。またこの方法により、簡潔なDNF(Disjunctive Normal Form)表現のルールが得られ、データマイニングにおいても有効であることが確かめられた。
|