研究概要 |
1.マーケットバスケットと呼ばれる販売情報を格納したデータベースにおける相関規則(association rule)の抽出は,最も基本的なデータマイニング(data mining)で,これまで数多く研究されている。相関規則はX⇒Yという形の文で,直観的に,Xに属するアイテム集合を買った顧客はYに属するアイテム集合も同時に買う傾向が強いことを表す。その相関規則が有意であるためには,(a)アイテム集合X∪Yは頻出(large)である(すなわち,データベースにおけるX∪Yの出現頻度が高い),(b)信頼性(confident)がある(すなわち,Xが出現するデータにおけるX∪Yが出現する割合が高い),(c)右辺Yは十分なアイテム集合を含む,の3つの要件が必要である。 2.相関規則を求める手続きは,まず頻出であるアイテム集合Zを求め,次にそのZを2つのアイテム集合X, Yに分割して有意な相関規則X⇒Yを得る,という2段階に分けられる。前年度,その後半部分(すなわち,頻出集合Zが与えられているという前提のもとで,Zから有意な相関規則X⇒Yを求める)に関する判定問題がNP)完全であることを示した。この結果は,頻出集合と双対的な概念である稀出集合(rare itemset)の概念を導入することにより得られた。 3.本年度,既に成果を得ている頻出集合が多項式時間で求められるための十分条件からの類推で,稀出集合が多項式時間で求められるための十分条件を開発した。 4.次に,前年度のNP完全性を示した帰着方法を分析し,上記3.の十分条件を利用して,相関規則が多項式時間で求められるデータベースの部分クラスを求めた。
|