2014 Fiscal Year Research-status Report
大規模データからの多種の時間概念が混在するシーケンシャルパターン高速抽出技術
Project/Area Number |
26330129
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
新谷 隆彦 電気通信大学, その他の研究科, 准教授 (30604623)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | データマイニング / パターンマイニング / シーケンシャルパターン / 大規模データ |
Outline of Annual Research Achievements |
26年度は時間情報として時間間隔、継続時間、繰り返し、ゆらぎ、時間帯をシーケンシャルパターンに導入し、これら時間情報が混在するシーケンシャルパターン(パターンと呼ぶ)抽出の基本手法を提案した。時間間隔は前のイベントの終了日時から後のイベントの開始日時までの時間差、継続時間はイベントの開始日時から終了日時までの時間差、繰り返しは各オブジェクトのシーケンスデータにおけるそのパターンの重複なく現れた回数、ゆらぎは所定の時間窓の中に現れるイベントの組合せ、時間帯はイベントが継続していた時刻を所定の単位で区切った時間幅とした。パターンは先頭と末尾がイベントアイテムセットであり、連続する2つのイベントアイテムセットの間に時間間隔アイテムセットが挟まれた形式とした。ここで、イベントアイテムセットはイベントの種類、継続時間の分割範囲、時間帯のセグメントの組からなるイベントアイテムの集合、時間間隔アイテムは時間間隔の分割範囲である。ユーザは抽出したいパターンの制約条件として、時間間隔の最大値、継続時間の範囲、繰り返し回数の最小値、時間窓のサイズ、時間帯の範囲を指定することが出来る。基本手法はデータ射影によりパターンを後方向と前方向に成長させて探索し、数え上げ時に制約条件を考慮することで条件を満たすパターンを抽出する。 また、人工的に作成したデータセットと実データであるライフログに適用し、有用なパターンが抽出出来ることを確認した。しかし、パターンの継続時間を考慮すべきであること、頻度が高いだけでなく多くの時間を費やしたパターンも重要であることを見出し、パターンの継続時間を閾値とするための総継続時間の概念を提案した。 さらに、27年度に予定している分散処理方式の検討を行うための小規模クラスタ環境として、4ノードからなるApache Hadoopのクラスタを構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
多種の時間概念が混在するシーケンシャルパターンを高速に抽出するための技術として、シーケンシャルパターンへの時間間隔、継続時間、繰り返し、ゆらぎ、時間帯を導入したシーケンシャルパターンを定義し、このパターンを抽出する基本方式を提案した。基本方式はデータ射影による探索が複雑であることなど処理性能としての課題があるが、人工的に作成したデータだけでなくライフログの実データに対する適用実験も行い、時間間隔、継続時間、繰り返し、ゆらぎ、時間帯が混在するシーケンシャルパターンを抽出出来ること、抽出されたパターンが有用であることを確認した。 さらに、パターンの継続時間の概念を提案し、継続時間を持つイベントからなるデータにおいては、価値ある情報を抽出するには従来のような頻度のみでなく、総継続時間の最小値を閾値とする必要があることを提案した。 また、27年度に向けた実験環境も構築できた。 以上から、おおむね順調な進展と判断出来る。
|
Strategy for Future Research Activity |
26年度に提案した基本手法を拡張し、高速化のための処理性能の改善、分散処理方式の検討を行う。探索範囲の絞り込み、数え上げの効率化による逐次処理としての高速化、分散処理による高速化の両面から、手法の改良と実験を繰り返しながら進める。 また、26年度に提案したパターンの継続時間を閾値とするための基本手法の拡張も行う。頻度の閾値は満たさないが、総継続時間の閾値を満たすパターンを抽出するための手法を検討する。頻度の低いパターンの探索が必要になるが、その数え上げの範囲を限定するな どによって処理効率の改善を目指す。
|
Causes of Carryover |
物品費については、実験用小規模クラスタ環境を構築するための購入予定の機器が値上がりし、スペックを変更したために少額の差額が生じた。しかし、目的である実験用小規模クラスタ環境は構築できている。 旅費については、研究情報収集のために予定していた海外出張と本学での業務が重なったために海外出張をキャンセルしたために残額が生じた。しかし、研究発表のための国内出張を増やすことができた。
|
Expenditure Plan for Carryover Budget |
物品費は来年度に予定している実験用クラスタ環境の拡張に利用する。また、旅費は研究発表のための出張に利用する。
|