Project/Area Number |
09780284
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
計算機科学
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中西 隆一 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (60263232)
|
Project Period (FY) |
1997 – 1998
|
Project Status |
Completed (Fiscal Year 1998)
|
Budget Amount *help |
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 1998: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 1997: ¥1,700,000 (Direct Cost: ¥1,700,000)
|
Keywords | データマイニング / 頻出集合 / 計算書 / データベース / 計算複雑さ |
Research Abstract |
本研究では、スーパーマーケット等のセールスデータベースから、有用な情報の一つとして、同時によく買われる商品の集合を見つける問題の複雑さについて考察を行った。その結果、以下の(1)〜(5)の結果を得た。 (1) 同時によく買われる商品の集合を全て(厳密に言えばそのような集合の要素数の最大値も)求めることは一般にはデータベースサイズの多項式時間では(P=NPでない限り)不可能である。すなわち、大規模データベースに対しては実現的な時間では不可能である。 (2) 「同時によく買われる」の代わりに、「それらの商品が独立に買われる率と比べてはるかに同時によく買われる」[文献1]及び「それらの商品が別々に買われる(つまりそれらの商品の一部を購入して、残りを購入しない場合が多い)ことが少ない」[文献2]という基準も提案されている。しかし、それらの基準を用いてもやはり上記(1)と同様に有用な情報をデータベースから現実的時間で求めることは不可能であることを示した。 (3) 「疎なデータベース」というデータベースのクラスを提案した。これは、直観的には消費がその場で行われるような(例:野球場や映画館等の売店など)データベースのクラスである。そして、疎なデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。 (4) 「周期性を持つデータベース」というセールスデータベースのクラスを提案した。これは、例えばデータベースを年単位に区切った場合、前年同月のデータが今年同月のデータに類似する(例:10月には{さんま、大根}という組み合わせが年に関わらずよく売れる)というデータベースである。そして、そのクラスに属するデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。 (5) 与えられたデータベースが上記(4)の周期性を持つデータベースであるか否か効率よく判定するアルゴリズムを提案した。 [文献1]S.Brin.R. Motwani,J.D.Ullman and S.Tsur:“Dynamic Itemset Counting and Implementation Rules for Marcket Bascket Data,"Proc.SIGMOD,1997,pp.255-264. [文献2]C.Charu,C.Aggarwal and S.Yu Philip:“A New Framework For Itemset Generation."PODS,1998.pp.18-24
|
Report
(2 results)
Research Products
(5 results)