研究概要 |
1.マーケットバスケットと呼ばれる販売情報を格納したデータベースにおける相関規則(asscciation rule)の抽出は、最も基本的なデータマイニング(data mining)で,これまで数多く研究されている。相関規則はX⇒Yという形の文で、直観的に、Xに属するアイテム集合を買った顧客はYに属するアイテム集合も同時に買う傾向が強いことを表す。その相関規則が有意であるためには、(a)アイテム集合X∪Yは頻出(large)である(すなわち,データベースにおけるX∪Yの出現頻度が高い)、(b)信頼性(confident)がある(すなわち、Xが出現するデータにおけるX∪Yが出現する割合が高い)、(c)右辺Yは十分なアイテム集合を含む、の3つの要件が必要である。相関規則を求める手続きは、まず頻出であるアイテム集合Zを求め、次にそのZを2つのアイテム集合X, Yに分割して有意な相関規則X⇒Yを得る、という2段階に分けられる。 2.頻出集合と双対的な概念である稀出集合を導入し、データベース中に、指定されたサイズ以下の稀出集合が存在するかどうかの判定問題がNP完全であることを証明した。 3.上記2.の稀出集合問題から、与えられた頻出集合Zから有意な相関規則X⇒Yが求まるかどうかの判定問題に帰着することにより、有意な相関規則を求める問題の時間計算量は一般にNP完全であることを証明した。 4.既に成果を得ている頻出集合が多項式時間で求められるための十分条件からの類推で,稀出集合が多項式時間で求められるための十分条件を開発した。 5.上記2.のNP完全性を示した帰着方法を分析し,上記4.の十分条件を利用して,相関規則が多項式時間で求められるデータベースの部分クラスを求めた。
|