• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

効率のよいデータマイニングシステムに関する研究

Research Project

Project/Area Number 09780284
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field 計算機科学
Research InstitutionNara Institute of Science and Technology

Principal Investigator

中西 隆一  奈良先端科学技術大学院大学, 情報科学研究科, 助手 (60263232)

Project Period (FY) 1997 – 1998
Project Status Completed (Fiscal Year 1998)
Budget Amount *help
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 1998: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 1997: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywordsデータマイニング / 頻出集合 / 計算書 / データベース / 計算複雑さ
Research Abstract

本研究では、スーパーマーケット等のセールスデータベースから、有用な情報の一つとして、同時によく買われる商品の集合を見つける問題の複雑さについて考察を行った。その結果、以下の(1)〜(5)の結果を得た。
(1) 同時によく買われる商品の集合を全て(厳密に言えばそのような集合の要素数の最大値も)求めることは一般にはデータベースサイズの多項式時間では(P=NPでない限り)不可能である。すなわち、大規模データベースに対しては実現的な時間では不可能である。
(2) 「同時によく買われる」の代わりに、「それらの商品が独立に買われる率と比べてはるかに同時によく買われる」[文献1]及び「それらの商品が別々に買われる(つまりそれらの商品の一部を購入して、残りを購入しない場合が多い)ことが少ない」[文献2]という基準も提案されている。しかし、それらの基準を用いてもやはり上記(1)と同様に有用な情報をデータベースから現実的時間で求めることは不可能であることを示した。
(3) 「疎なデータベース」というデータベースのクラスを提案した。これは、直観的には消費がその場で行われるような(例:野球場や映画館等の売店など)データベースのクラスである。そして、疎なデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。
(4) 「周期性を持つデータベース」というセールスデータベースのクラスを提案した。これは、例えばデータベースを年単位に区切った場合、前年同月のデータが今年同月のデータに類似する(例:10月には{さんま、大根}という組み合わせが年に関わらずよく売れる)というデータベースである。そして、そのクラスに属するデータベースから、効率よく(1)や(2)の集合を求めるアルゴリズムを提案した。
(5) 与えられたデータベースが上記(4)の周期性を持つデータベースであるか否か効率よく判定するアルゴリズムを提案した。
[文献1]S.Brin.R. Motwani,J.D.Ullman and S.Tsur:“Dynamic Itemset Counting and Implementation Rules for Marcket Bascket Data,"Proc.SIGMOD,1997,pp.255-264.
[文献2]C.Charu,C.Aggarwal and S.Yu Philip:“A New Framework For Itemset Generation."PODS,1998.pp.18-24

Report

(2 results)
  • 1998 Annual Research Report
  • 1997 Annual Research Report
  • Research Products

    (5 results)

All Other

All Publications (5 results)

  • [Publications] 野中康太郎: "頻出集合のインクリメンタルなデータマイニング" 電子情報通信学会技術研究報告. COMP98-39. 9-16 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] 権 娟大: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. COMP98-9. 1-8 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] 巽 知厳: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. 57-64 (1997)

    • Related Report
      1998 Annual Research Report
  • [Publications] 巽 知厳, 中西隆一, 伊藤 実, 関 浩之: "データマイニングにおける頻出集合問題の計算複雑さ" 電子情報通信学会技術研究報告. COMP97-67. (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] 権 娟大, 中西隆一, 伊藤 実, 中西通雄: "効率良く頻出集合をデータマイニング可能なデータベースクラスについて" 電子情報通信学会技術研究報告. (発表予定). (1998)

    • Related Report
      1997 Annual Research Report

URL: 

Published: 1997-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi