2023 Fiscal Year Research-status Report
Towards a sublinear summarization for streaming partially-ordered data
Project/Area Number |
20K11935
|
Research Institution | Shizuoka University |
Principal Investigator |
山本 泰生 静岡大学, 情報学部, 准教授 (30550793)
|
Co-Investigator(Kenkyū-buntansha) |
酒向 重行 東京大学, 大学院理学系研究科(理学部), 准教授 (90533563)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | ストリームデータ / データ要約 / 測光時系列データ |
Outline of Annual Research Achievements |
本研究では順序関係を扱う任意の関係クエリに応答可能なサポートサマリを実現することを目的とし、これまでにカーネル密度推定に基づく新しいサポートサマリとして、Grid-RACE (Repeated Arrays of Count Estimators) を提案している。本年は Grid-RACE の空間計算量を検証するとともに、トランザクションデータの各種ベンチマークにおいて性能評価を行った。検証と評価実験の結果、Grid-RACEを用いて任意のクエリのサポートを推定できることがわかった。他方、構築にかかる空間計算量は最悪の場合、クエリサイズの指数オーダーとなることがわかった。この結果はGrid-RACEの理論的限界を示すものである。またタイムドメイン天文学における測光時系列データを対象とする応用課題において、突発信号をリアルタイム検知する提案法 (Elastic Data Binning. EDB) の性能評価をまとめた論文を出版している。さらに、離散構造を有するトランザクションストリームデータから頻出飽和系列パターンを高速に抽出するオンラインマイニング法を提案した。提案法では、任意の系列を距離付き集合に変換する起点順序分解法を用いており、アイテム集合マイニングの既存手法を用いて、高速に頻出系列パターンを抽出することが可能である。また抽出した系列パターンを素性とする系列予測問題に着手し、クリックストリームの実データを用いて系列パターンに基づく系列予測の性能評価を行った。実験の結果、従来のパターンより距離情報を加味した系列パターンの方が高い性能を持つことがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
半順序ストリームデータを対象とする新たな汎用サポートサマリを提案し、提案法の空間計算量を明らかにできた点から計画通り進捗していると言える。他方、当初目標としていたサポートサマリの劣線形性保証の観点から提案法とは異なるアプローチが求められる。
|
Strategy for Future Research Activity |
頻度サマリ (Itemset-Frequency Summary) に関する近年の研究を再調査するとともに、従来取り組んできた決定性アルゴリズムによる劣線形化の可能性を実証実験をもとに検討し直す予定である。
|
Causes of Carryover |
サポートサマリの理論的性質の検証と性能評価実験に時間を要しており、当初予定していた学会参加費ならびに物品購入を次年度に持ち越すこととした。
|