研究概要 |
1.最近,計算機の性能向上により,大規模データベースの詳細な統計的分析が可能になり,データマイニング(data mining)の技術が発展してきた。特に,マーケットバスケットと呼ばれる販売情報を格納したデータベースにおける相関規則(association rule)の抽出は,最も基本的なデータマイニングで,これまで多く研究されている。相関規則はX⇒Yという形の文で,直観的には,Xに属するアイテム集合を買った顧客はYに属するアイテム集合も同時に良く買う傾向が強いことを表す。その相関規則が有意であるためには,(1)アイテム集合X∪Yは頻出(large)である(すなわち,データベースにおけるX∪Yの出現頻度が高い),(2)信頼性(confident)がある(すなわち,Xが出現するデータにおけるX∪Yが出現する割合が高い),(3)右辺Yは十分なアイテム集合を含む,の3つの要件が必要である。 2.相関規則を求める手続きは,まず頻出であるアイテム集合Zを求め,次にそのZを2つのアイテム集合X, Yに分割して有意な相関規則X⇒Yを得る,という2段階に分けられる。本研究では,その後半部分(すなわち,頻出集合Zが与えられているという前堤のもとで,Zから有意な相関規則X⇒Yを求める)の時間計算量を考察し,効率的に行えるための条件を開発することを目的としている。 3.頻出集合と双対的な概念である稀出集合(rare itemset)の概念を導入し,データベース中に,指定されたサイズ以下の稀出集合が存在するかどうかの判定問題がNP完全であることを示した。ここで,稀出集合とは,データベースにおける出現頻度が低いアイテム集合を表す。 4.上記の稀出集合問題から,与えられた頻出集合Zから有意な相関規則X⇒Yが得られるかどうかの判定問題に帰着することにより,有意な相関規則を求める問題の時間計算量は一般にNP完全であることを示した。次年度以降,多項式時間で相関規則が求められるデータベースの部分クラスを見つけることが課題である。
|