2001 Fiscal Year Annual Research Report
データマイニングにおける相関規則を求める計算量に関する研究
Project/Area Number |
13680446
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
伊藤 実 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90127184)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 直樹 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (40335477)
石井 信 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)
|
Keywords | データマイニング / 相関規則 / NP完全 |
Research Abstract |
1.最近,計算機の性能向上により,大規模データベースの詳細な統計的分析が可能になり,データマイニング(data mining)の技術が発展してきた。特に,マーケットバスケットと呼ばれる販売情報を格納したデータベースにおける相関規則(association rule)の抽出は,最も基本的なデータマイニングで,これまで多く研究されている。相関規則はX⇒Yという形の文で,直観的には,Xに属するアイテム集合を買った顧客はYに属するアイテム集合も同時に良く買う傾向が強いことを表す。その相関規則が有意であるためには,(1)アイテム集合X∪Yは頻出(large)である(すなわち,データベースにおけるX∪Yの出現頻度が高い),(2)信頼性(confident)がある(すなわち,Xが出現するデータにおけるX∪Yが出現する割合が高い),(3)右辺Yは十分なアイテム集合を含む,の3つの要件が必要である。 2.相関規則を求める手続きは,まず頻出であるアイテム集合Zを求め,次にそのZを2つのアイテム集合X, Yに分割して有意な相関規則X⇒Yを得る,という2段階に分けられる。本研究では,その後半部分(すなわち,頻出集合Zが与えられているという前堤のもとで,Zから有意な相関規則X⇒Yを求める)の時間計算量を考察し,効率的に行えるための条件を開発することを目的としている。 3.頻出集合と双対的な概念である稀出集合(rare itemset)の概念を導入し,データベース中に,指定されたサイズ以下の稀出集合が存在するかどうかの判定問題がNP完全であることを示した。ここで,稀出集合とは,データベースにおける出現頻度が低いアイテム集合を表す。 4.上記の稀出集合問題から,与えられた頻出集合Zから有意な相関規則X⇒Yが得られるかどうかの判定問題に帰着することにより,有意な相関規則を求める問題の時間計算量は一般にNP完全であることを示した。次年度以降,多項式時間で相関規則が求められるデータベースの部分クラスを見つけることが課題である。
|
-
[Publications] Shougo Shimizu: "Complexity of the type-consistency Problem for Acyclic Object-Oriented Database Schemes"IEICE Transactions on Information and Systems. E84-D・5. 623-634 (2001)
-
[Publications] 長行 康男: "マルコフゲームにおける環境モデルの推定を利用したマルチエージェント強化学習法"電子情報通信学会技術研究報告. AI2001-15. 29-36 (2001)
-
[Publications] 長行 康男: "未来状態の予測を利用したマルチエージェント強化学習法"第10回マルチエージェンと協調計算ワークショップ論文集. 85-90 (2001)
-
[Publications] 芝山 敏満: "インクリメンタルサポートベクターマシンによる価値関数の学習"電子情報通信学会技術研究報告. NC2001-72. 13-18 (2001)
-
[Publications] 稲垣 浩司: "他エージェントの行動予測を利用したマルチエージェント強化学習の状態空間分割による高速化"第14回自律分散システム・シンポジウム資料. 89-94 (2002)