2022 Fiscal Year Research-status Report
Towards a sublinear summarization for streaming partially-ordered data
Project/Area Number |
20K11935
|
Research Institution | Shizuoka University |
Principal Investigator |
山本 泰生 静岡大学, 情報学部, 准教授 (30550793)
|
Co-Investigator(Kenkyū-buntansha) |
酒向 重行 東京大学, 大学院理学系研究科(理学部), 准教授 (90533563)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | ストリームデータ / データ要約 / 測光時系列データ |
Outline of Annual Research Achievements |
本研究の3年目にあたる本年は、昨年度に提案したカーネル密度推定 (Kernel Density Estimation, KDE) に基づくサポートサマリ GRACE の予備的な性能評価実験と計算量の理論的な解析を行った。GRACEは、KDEを与える劣線形スケッチ RACE (Repeated Arrays of Count Estimators) をグリッド上に配置した多層的なデータ構造を取る。RACEを基本要素としてGRACEを実装し、密なトランザクションデータストリームのベンチマークとして知られるマッシュルームデータに対して、サポートクエリに対する出力の近似精度とメモリ消費量の関係を検証した(実験結果は知識ベースシステム研究会にて発表)。次にサポートクエリに対してε劣性を満たすGRACEの空間計算量を解析的に調査したところ、トランザクション長を m に対して O(2^m) であることがわかった。ストリーム長 (トランザクションの個数) に依存しない点は一定の評価ができるものの、GRACEにおいてもトランザクションの長さに対する組み合わせ爆発は避けることができない見通しとなった。なお、PODS'16論文において、ε劣性を満たすサポートサマリの空間計算量の下界がΩ(m)であると示されているが、この下界とGRACEの計算量とは大きなギャップが存在している。ただし、下界に近い空間計算量で動作する非サンプリングアルゴリズムは存在し得ない (存在するとすればパターンマイニング研究の極めて重要な発見となる) と考えるのが一般的であり、現在、下界の方を修正することができないか解析を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究が目標としていた半順序ストリームデータの劣線形要約に関して、提案手法であるGRACEの理論的・実証的評価を行うことができている。
|
Strategy for Future Research Activity |
理論的解析から、任意のデータを対象とした汎用サマリとしてのGRACEの可用性は十分ではない。さらに先行研究で示されている下界とのギャップが大きい現状である。よって、今後はGRACEが応用可能なデータストリームの前提条件を検討するとともに、劣線形要約の下界に関する解析を進める予定である。
|
Causes of Carryover |
本年度に投稿予定としていた論文について理論解析の結果を踏まえて来年度に投稿することとした。そのための旅費経費が未使用としている。
|
Research Products
(4 results)