研究課題/領域番号 |
24500164
|
研究種目 |
基盤研究(C)
|
研究機関 | 電気通信大学 |
研究代表者 |
沼尾 雅之 電気通信大学, 情報理工学(系)研究科, 教授 (90508821)
|
研究分担者 |
丸山 宏 統計数理研究所, モデリング研究系, 教授 (90609728)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | データマイニング / バスケット分析 / センサーネット |
研究概要 |
平成24年度の研究実施計画は,集約バスケットからのマイニング手法の開発と,その分析アルゴリズムの開発と評価の2点であった. 前者については,まず,集約バスケットのモデル化をおこなった.集約バスケットは真のバスケットモデルが集約されているという仮定で,真のバスケットモデルにおける特徴が,集約バスケットではどのように変換されるかを分析した.そして,復元された仮想バスケットの何割が真のバスケットモデルの統計的特徴を保存しているかについての理論的解析を行った.また,仮想バスケットの構成法を,真のバスケットモデルへの復元問題として形式的定義を与え,複数の復元方法について,実験・評価を行った.さらに,多重集合バスケットの応用として,時間や階層などの属性も加えられた場合のマイニング手法についても考察した. 後者の分析アルゴリズムは,仮想バスケットの復元部分と,そこからの相関関係抽出部分に分けられる.復元方法を一般化すると,指定された確率変数に基づいて,アイテムをバスケットに分配するアルゴリズムの開発が必要になるが,これは,支持度と確信度を入力パラメータとする,トランザクションデータ生成プログラムを開発することと同等になる.現在提案されているデータ生成法は,頻度分布などに人工的な偏りがあり,現実のバスケットを反映していない.したがって,まずこれら既存のデータ生成アルゴリズムを精査し,頻出パターンの分布が,現実データからのものと同等になるようなアルゴリズムを開発した.さらに,生成データについての統計的解析や,アルゴリズム自体の効率の計算量的評価も行った.また,相関関係抽出部については,仮想バスケットから得られた支持度・確信度を補正する必要があり,集約度を考慮して統計的検定を行いながら補正を行うアルゴリズムを開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成24年度の研究実施計画としてあげた2つの課題について,以下に説明するように,手法とアルゴリズムの開発に関しては概ね順調に目的を達成できたが,国際会議などで成果を対外的に示すのがまだ不十分だと考えられる. 集約バスケットからのマイニング手法の開発においては,集約バスケットのモデル化とその形式的定義を行った.そして,集約度をパラメータとして,復元問題の理論的解析も行った.その結果,真のバスケットモデルにおける相関指標である支持度と確信度が,集約度の関数として表現されるい事が示され,ここから,集約度が大きくなると復元バスケットにおける相関が失われていく課程が明らかとなった.ここから,単純な復元手法である均等配分法の限界が明らかとなり,そこから,繰り返し収束法を考案し,これらの新しいアルゴリズムを精度と効率の両面から評価することができるようになった. また,分析アルゴリズムの開発についても,復元アルゴリズム,相関関係抽出アルゴリズムともに開発評価ができた.復元アルゴリズムについては,均等分配法をSQLの再帰検索文によって記述し,さらに繰り返し収束法などの,より高度な復元法もSQLで実装する事ができた.そして,それらで生成した復元バスケットのトランザクションデータと,従来型のトランザクションデータ生成プログラムとの比較を行い,有効性を示すことができた. このように,手法とアルゴリズムの開発は順調であったが、一方,国際会議などによって,本提案をデータマイニングの研究の新たな展開の核にするような試みについては,国際会議での発表ができなかったため,次年度以降の課題としたい.
|
今後の研究の推進方策 |
今後の研究計画としては,平成25年度には,マイクロバスケット分析手法の開発とそのアルゴリズム開発を,また,平成26年度には,製造・流通分野の実データを用いた実験評価を行う予定である. マイクロバスケット分析手法とは,通常のバスケットが,より細かい粒度のバスケット(バスケットプリミティブ)の集約という前提で,ここから,アイテム間のより精度の高い相関関係を抽出する方法のことであり,集約バスケットからのマイニング手法の開発と同様に,バスケットからバスケットプリティブを復元する問題として定式化する.この際,集約度は未知数であるので,集約度を変化させながら,真のモデルに収束させていく分析方法を確立する.また,この手法の応用として,懐中電灯1個と乾電池2 個といったアイテムの個数間の関係の抽出方法も開発する.このためのアルゴリズムは,仮想バスケットの復元と,そこからの相関関係抽出に分けられるが,探索法や繰り返しによる収束法などが必要になる.また,計算時間の点から,並列処理に向いたアルゴリズムを開発し,計算量的な評価と統計的評価も行う. 最終年度には,実データによるこれまでの手法やアルゴリズムの評価を行い,有効性を実証する.製造業においては,検査装置などの制約により,欠点を個品単位ではなく一定時間ごとの個数として検査していることが多く,今まではバスケット分析の対象にはならなかった.また,流通業,小売業におけるバスケット分析についても,粒度の多様性に起因するノイズによって,有用な相関の発見にいたらない場合も多かった.そこで,品質管理データから欠点種ごとの相関関係抽出,および,購買データからのマイクロバスケット分析を行うことにより,数百万個のバスケットからなる実トランザクションによって提案手法を評価し,既存のバスケット分析に対する優位性を検証する.
|
次年度の研究費の使用計画 |
該当なし
|