29年度は多種の時間情報が混在するシーケンシャルパターンを総継続時間を閾値とする長時間シーケンシャルパターンに拡張した抽出手法に対する詳細な実験を行い、抽出手法の評価を行った。 時間情報を考慮する場合には多くの時間を費やしたシーケンシャルパターンが重要となるため、シーケンシャルパターンを抽出する閾値に頻度ではなく、総継続時間を採用した。総継続時間はシーケンシャルパターンが現れた区間の総和であるが、総継続時間はパターン長に対して単調減少性が成り立たない。そこで、探索候補の枝刈りではなく候補パターンの総継続時間を調べる処理を部分的に省略することで高速化を図った。1つのパターンが現れたと認める発生区間の継続時間長とイベント間の発生時間間隔に制約条件を付加すること、および、既に調べたデータでの総継続時間と残りの区間から総継続時間の閾値を満たす可能性があるかどうかを判定することで、意味のないパターンの抽出を回避するとともに処理の高速化を実現した。 さらに、継続時間、時間間隔、時間帯の情報をアイテムに付加することで、多種の時間情報を考慮した長時間シーケンシャルパターンの抽出を実現した。イベントが発生日時ではなく、開始日時と終了日時を持つデータを処理対象としたため、アイテムに継続時間、時間帯の情報を付加することと、アイテム間の発生の時間間隔を考慮したパターン抽出を可能とした。 また、人工的に作成したイベントが継続時間を持つデータを用いた評価実験により抽出手法の性能を確認するとともに、ライフログの実データを用いた実験により有用なパターンを抽出できることを確認した。
|