• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Research-status Report

集約バスケットからのデータマイニング手法の研究

Research Project

Project/Area Number 24500164
Research InstitutionThe University of Electro-Communications

Principal Investigator

沼尾 雅之  電気通信大学, 情報理工学(系)研究科, 教授 (90508821)

Co-Investigator(Kenkyū-buntansha) 丸山 宏  統計数理研究所, モデリング研究系, 教授 (90609728)
Keywordsデータマイニング / 相関分析 / バスケット分析 / センサーネット
Research Abstract

平成25年度の実施計画は,マイクロバスケット分析手法の開発と評価であった.通常のバスケット分析で,1回の購買の単位として扱われるバスケットの内容は,1人で買い物に来ているか,家族連れかによっても異なるし,また,買い物の頻度が,毎日か週末かによっても異なるので,これらを一律に1つのバスケットの内容として扱うのは問題である.そこで,バスケットは,実はより細かいバスケットが集約されているという前提で,より精度の高い相関関係を抽出する方法を,新たにマイクロバスケット分析と定義した.
まず,マイクロバスケットの構成アルゴリズムであるが,これは,前年度に開発した仮想バスケット復元アルゴリズムを利用し,入力パラメータである集約度を自動生成する方向で開発した.集約バスケットをそのまま相関分析した場合の支持度と,仮想バスケットに分割した時の支持度の関係は,集約度の関係式で表される事が提案者によって明らかにされている.そこで,集約度を変化させながらマイクロバスケットを構成して,支持度を観測し,関係式を最も近似するような集約度で分割するアルゴリズムを開発した.
また,バスケット復元アルゴリズムについても,購買履歴等データ等の自然さの指標として,アイテム出現数やトランザクションの大きさの分布がべき乗則になるような,データセット生成アルゴリズムを新たに設計して実装した.そして,既存のデータセット生成器と比べて,べき乗則分布において実データに近いかどうかを評価した.
最後にアルゴリズムの評価については,購買履歴の実データから,複数の集約度を組み合わせて集約バスケットを生成し,これを入力として,マイクロバスケット分析を行い,元の実データとの比較によって評価を行った.評価は実データに対する統計量の比較とともに,マイクロバスケット分割アルゴリズムの計算量についても行った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

平成25年度の研究実施計画としてあげた課題について,以下に説明するように,アルゴリズムの開発と評価に関しては概ね順調に目的を達成できたが,国際会議などで成果を対外的に示すのがまだ不十分だと考えられる.
マイクロバスケット分析のためには,通常のバスケットからマイクロバスケットを再構成して,そこから相関関係分析を行う必要がある.前年度に開発した集約バスケットからの仮想バスケット復元アルゴリズムとの違いは,集約度が未知ということである.このため,集約度を類推する方法の開発が必要であったが,今回は繰り返し近似法をベースとして行い,かつ,通常バスケットのアイテム重複度から集約度の範囲を絞り込む事によって,比較的少ない試行回数で集約度を推定して,マイクロバスケット分割ができることを示せた.
また,バスケット分割アルゴリズムとして必要とされるデータ生成アルゴリズムについても,実データらしさを指標とすることを新たに検討し,アイテム出現数やトランザクションの大きさの分布がべき乗則になるような,データセット生成器を設計,実装して,マイクロバスケット生成に取り入れる事ができた.
アルゴリズムの評価としては,実データから集約データを生成して,そこから,元の実データが復元できるかという実験を,複数の集約度で行って,精度の評価を行った.その結果,集約度が比較的少ない場合には,良好な結果が得られている一方,集約度が大きい場合には急激に精度が低くなる事も示された.さらに,アルゴリズムの計算量についても,入力とされるアイテムセットとその支持度の関係によっては,改善が必要であることもわかった.これらについては,次年度の課題とする.
また,今年度は国内学会においての発表は行ったが,国際会議での発表はできなかったので,次年度の課題としたい.

Strategy for Future Research Activity

今後の研究計画としては,今年度のマイクロバスケット分析手法の開発と評価の結果明らかになった課題として,集約度の大きなバスケットからのマイクロバスケット分割の精度向上と,分割アルゴリズムの効率的な計算方法の改良を行う予定である.
また,製造・流通分野の実データを用いた実験評価を行う予定である.製造業においては,検査装置などの制約により,欠点を個品単位ではなく一定時間ごとの個数として検査していることが多く,今まではバスケット分析の対象にはならなかった.また,流通業,小売業におけるバスケット分析についても,粒度の多様性に起因するノイズによって,有用な相関の発見にいたらない場合も多かった.そこで,品質管理データから欠点種ごとの相関関係抽出,および,購買データからのマイクロバスケット分析を行うことにより,数百万個のバスケットからなる実トランザクションによって提案手法を評価し,既存のバスケット分析に対する優位性を検証する.

Expenditure Plans for the Next FY Research Funding

購入予定のRFID機器について,新たに増設しなくても実験ができたため購入を翌年度に持ち越したため,次年度使用額が生じた.
翌年度分予算と次年度使用額を合わせて,実験用RFID機器の購入と,国際会議発表のための旅費,および,論文誌掲載量として使用する予定である.

  • Research Products

    (1 results)

All 2014

All Presentation (1 results)

  • [Presentation] 相関分析のためのラティス構造に基づくデータセット生成器2014

    • Author(s)
      松石 浩輔,沼尾 雅之
    • Organizer
      日本データベース学会
    • Place of Presentation
      兵庫県
    • Year and Date
      20140303-20140305

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi