確率的イベントストリームにおけるリアルタイムな系列パターンマイニング手法の開発
Project/Area Number |
20K19804
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | Nagoya University |
Principal Investigator |
杉浦 健人 名古屋大学, 情報学研究科, 助教 (10821663)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 確率的イベントストリーム / データストリーム処理 / ストリーム処理 / パターンマイニング / 正規表現 |
Outline of Research at the Start |
本研究では①インクリメンタル処理に基づく代表的系列パターン検出手法の開発,②時間窓の組合せによる頻出・周期的系列パターンマイニング手法の開発,③システムとしての実装及び評価の3つの課題に取り組む.①では,最小記述長(Minimum Description Length: MDL)に基づく代表的系列パターン検出の確率的イベントストリーム・正規表現への拡張を行い,その成果に対して階層的にスライディング・タンブリングウィンドウを適用することで②の達成を目指す.また,①及び②の進捗に応じて適宜③を実施し,提案手法の性能や既存手法との比較を行う.
|
Outline of Annual Research Achievements |
本研究の目的である確率的イベントストリームからのリアルタイムな系列パターンマイニングについて,3つのサブテーマのうち「1. インクリメンタル処理に基づく代表的系列パターン検出手法の開発」及び「3. システムとしての実装及び評価」を中心に取り組んだ.特に,「3. システムとしての実装及び評価」について,検出した代表的パターンをメモリ上で効率的に保持および参照するためのスレッドセーフなインデックス構造についての実装を中心に行った.既存のオープンソース実装では要求を満たすインデックス構造が存在しないため昨年度からその実装を実施項目として追加したが,昨年度実装したロックフリーインデックスについて,元論文の構造変更手続きに誤りが含まれていることが判明した.そのため,構造変更手続きについて改善した手法を提案し,動作の正常化を確認した.更に,同時実行制御手法についてロックフリーな手続きとロックに基づく手続きとを併用するハイブリッドな方式を用いることにより,ストリーム処理のようにwrite-intensiveなワークロードにおいて既存の最先端インデックスよりも高い性能が達成できることを確認した.また,イベントストリーム(イベントと時刻)のような多次元のデータを効率的に格納および検索するために,空間充填曲線に基づく多次元索引への拡張にも取り組んだ.また,提案手法への入力となる確率的データストリームについて,データストリーム処理システムの近似的な耐障害性保証や近似問合せ処理の結果など,より広範なデータへの適用のための検証を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
提案手法内部で利用するスレッドセーフなインデックス構造について,元論文で提案された手続きの修正および実装に時間を消費してしまったため,提案当初の実施計画よりもやや遅れた進捗となっている.具体的には,ロックフリーインデックスであるBw木の構造変更手続きについて修正した手法を提案した.元となった論文の手続きではストリーム処理のように挿入と削除が頻発するワークロードにおいて,マージして1つにまとめたはずのノードが複数の親ノードから参照されうるという,インデックス構造の一貫性に関する不整合が発生する可能性があった.この点は既存研究において解決策が提案されているが,その手続きは事実上ロックに基づくものであり,ロックフリーインデックスであるBw木の設計方針と反するものであると共に手続きの複雑化や性能の劣化を招いていた.そのため,Bw木の基となったB-link木において提案されたマージ手続きを採用し,Bw木のデータ構造および手続きに合わせた形で組み込むことでこの一貫性における不整合を解決する手法を提案および実装した.この提案手法は本研究課題における1つの成果となったが,一方でこの問題解決のためにその他の実施項目の進捗がやや遅れることとなった.
|
Strategy for Future Research Activity |
サブテーマの「1. インクリメンタル処理に基づく代表的系列パターン検出手法の開発」および「3. システムとしての実装及び評価」を行い,特に「1. インクリメンタル処理に基づく代表的系列パターン検出手法の開発」について手法の実装の完了を目指す.具体的には,定義した代表的系列パターンおよび検出手続きに基づき,実装した並列インデックスを活用した並列処理での代表的系列パターンの検出を実装する.特に,新規確率的イベントの挿入および対象外となった確率的イベントの排出によって発生する,検出済み代表的系列パターンの尤度更新について実装する.また実装した手法に対し,実世界のデータセットを用いた実験により検出される代表的系列パターンの尤もらしさを,シミュレーションによる実験によりスループットなどアルゴリズムとしての処理性能を評価する.また,並列インデックスの実装によりやや遅れた進捗となっているため,研究計画の変更(最終年度の延長)を視野に入れ研究を実施し,年度後半に入った時点で延長の有無および必要に応じて延長後の研究計画を立案する.
|
Report
(3 results)
Research Products
(43 results)