2016 Fiscal Year Research-status Report
大規模データからの多種の時間概念が混在するシーケンシャルパターン高速抽出技術
Project/Area Number |
26330129
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
新谷 隆彦 電気通信大学, 大学院情報理工学研究科, 准教授 (30604623)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | データマイニング / シーケンシャルパターン / 大規模データ / 時間概念 / 分散処理 |
Outline of Annual Research Achievements |
28年度は総継続時間を閾値とする長時間シーケンシャルパターン抽出方式の高速化、および、多種の時間概念が混在するシーケンシャルパターン抽出の総継続時間を閾値とする長時間シーケンシャルパターンへの拡張を進めた。また、小規模なデータを用いた基礎実験を行った。 時間情報を考慮する場合、従来のように頻度が高いシーケンシャルパターンだけではなく、多くの時間を費やしたシーケンシャルパターンである長時間シーケンシャルパターンも重要である。長時間シーケンシャルパターンの総継続時間はパターン長に対する単調減少性が成り立たないため、探索候補の枝刈りではなく、候補パターンに対する総継続時間を調べる処理を部分的に省略する手法を確立した。候補パターンに対して総継続時間を調べるときに、既に調べたシーケンスデータにおける総継続時間から残りのシーケンスデータすべてを調べたときに最小総継続時間の閾値を満たす可能性があるかどうかを判定する戦略をとることで、不要なシーケンスデータに対する処理を省略した。これによって、高速化を実現した。 また、この総継続時間を閾値として長時間シーケンシャルパターンを抽出する手法を時間間隔、継続時間、繰り返し、ゆらぎ、時間帯を導入したシーケンシャルパターン抽出に拡張した。多種の時間情報はアイテムの条件として付与したため、長時間シーケンシャルパターン抽出手法を適用することが可能であった。 これら手法を分散処理化し、8ノードからなるApache Hadoopクラスタへ実装した。小規模なデータを用いた基礎実験に続き、大規模なデータを用いた詳細な評価実験を進めている段階である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
総継続時間を閾値とするシーケンシャルパターン抽出方式の高速化、および、多種の時間概念が混在するシーケンシャルパターン抽出の総継続時間を閾値とする形への拡張を進め、これら手法を確立させ、分散処理化を行った。 しかし、分散処理方式の実装による評価において、継続時間が長いイベントが密となるまれなケースにおいて総継続時間の重なりを過小評価したことですべてのパターンを正しく見つけ出すことができていないことを発見した。この修正を行ったため、大規模なデータにおける実験を完了させることが出来ず、成果発表を断念せざるを得なかった。 そのため、やや遅れていると判断した。
|
Strategy for Future Research Activity |
28年度に長時間シーケンシャルパターン抽出技術の修正と小規模な実験まで完了できたため、今年度は大規模なデータを用いた評価実験を行ったうえでまとめ、成果発表を目指す。
|
Causes of Carryover |
国際会議での成果発表を予定していたが、論文投稿の直前にアルゴリズムの誤りが見つかったため、今年度は成果発表を断念した。そのため、旅費に残額が生じた。
|
Expenditure Plan for Carryover Budget |
国際会議などでの研究成果発表のための出張旅費に利用する。
|