効率のよいデータマイニングシステムに関する研究

Research Project

Project/Area Number	09780284
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	計算機科学
Research Institution	Nara Institute of Science and Technology
Principal Investigator	中西隆一奈良先端科学技術大学院大学, 情報科学研究科, 助手 (60263232)
Project Period (FY)	1997 – 1998
Project Status	Completed (Fiscal Year 1998)
Budget Amount *help	¥2,200,000 (Direct Cost: ¥2,200,000) Fiscal Year 1998: ¥500,000 (Direct Cost: ¥500,000) Fiscal Year 1997: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywords	データマイニング / 頻出集合 / 計算書 / データベース / 計算複雑さ
Research Abstract	本研究では、スーパーマーケット等のセールスデータベースから、有用な情報の一つとして、同時によく買われる商品の集合を見つける問題の複雑さについて考察を行った。その結果、以下の(1)〜(5)の結果を得た。 (1) 同時によく買われる商品の集合を全て(厳密に言えばそのような集合の要素数の最大値も)求めることは一般にはデータベースサイズの多項式時間では(P=NPでない限り)不可能である。すなわち、大規模データベースに対しては実現的な時間では不可能である。 (2) 「同時によく買われる」の代わりに、「それらの商品が独立に買われる率と比べてはるかに同時によく買われる」[文献1]及び「それらの商品が別々に買われる(つまりそれらの商品の一部を購入して、残りを購入しない場合が多い)ことが少ない」[文献2]という基準も提案されている。しかし、それらの基準を用いてもやはり上記(1)と同様に有用な情報をデータベースから現実的時間で求めることは不可能であることを示した。 (3) 「疎なデータベース」というデータベースのクラスを提案した。これは、直観的には消費がその場で行われるような(例:野球場や映画館等の売店など)データベースのクラスである。そして、疎なデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。 (4) 「周期性を持つデータベース」というセールスデータベースのクラスを提案した。これは、例えばデータベースを年単位に区切った場合、前年同月のデータが今年同月のデータに類似する(例:10月には{さんま、大根}という組み合わせが年に関わらずよく売れる)というデータベースである。そして、そのクラスに属するデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。 (5) 与えられたデータベースが上記(4)の周期性を持つデータベースであるか否か効率よく判定するアルゴリズムを提案した。 [文献1]S.Brin.R. Motwani,J.D.Ullman and S.Tsur:“Dynamic Itemset Counting and Implementation Rules for Marcket Bascket Data,"Proc.SIGMOD,1997,pp.255-264. [文献2]C.Charu,C.Aggarwal and S.Yu Philip:“A New Framework For Itemset Generation."PODS,1998.pp.18-24

Report

(2 results)

1998 Annual Research Report
1997 Annual Research Report

Research Products
(5 results)

All Other

All Publications (5 results)

[Publications] 野中康太郎: "頻出集合のインクリメンタルなデータマイニング" 電子情報通信学会技術研究報告. COMP98-39. 9-16 (1998)
- Related Report
  1998 Annual Research Report
[Publications] 権娟大: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. COMP98-9. 1-8 (1998)
- Related Report
  1998 Annual Research Report
[Publications] 巽知厳: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. 57-64 (1997)
- Related Report
  1998 Annual Research Report
[Publications] 巽知厳, 中西隆一, 伊藤実, 関浩之: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. (1997)
- Related Report
  1997 Annual Research Report
[Publications] 権娟大, 中西隆一, 伊藤実, 中西通雄: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. (発表予定). (1998)
- Related Report
  1997 Annual Research Report

効率のよいデータマイニングシステムに関する研究

Principal Investigator

中西 隆一 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (60263232)

¥2,200,000 (Direct Cost: ¥2,200,000)

Report

Research Products

[Publications] 野中康太郎: "頻出集合のインクリメンタルなデータマイニング" 電子情報通信学会技術研究報告. COMP98-39. 9-16 (1998)

Related Report

[Publications] 権 娟大: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. COMP98-9. 1-8 (1998)

Related Report

[Publications] 巽 知厳: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. 57-64 (1997)

Related Report

[Publications] 巽 知厳, 中西隆一, 伊藤 実, 関 浩之: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. (1997)

Related Report

[Publications] 権 娟大, 中西隆一, 伊藤 実, 中西通雄: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. (発表予定). (1998)

Related Report

中西隆一奈良先端科学技術大学院大学, 情報科学研究科, 助手 (60263232)

[Publications] 権娟大: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. COMP98-9. 1-8 (1998)

[Publications] 巽知厳: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. 57-64 (1997)

[Publications] 巽知厳, 中西隆一, 伊藤実, 関浩之: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. (1997)

[Publications] 権娟大, 中西隆一, 伊藤実, 中西通雄: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. (発表予定). (1998)