Towards a sublinear summarization for streaming partially-ordered data
Project/Area Number |
20K11935
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Shizuoka University |
Principal Investigator |
山本 泰生 静岡大学, 情報学部, 准教授 (30550793)
|
Co-Investigator(Kenkyū-buntansha) |
酒向 重行 東京大学, 大学院理学系研究科(理学部), 准教授 (90533563)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | ストリームデータ / データ要約 / 測光時系列データ / ライトカーブデータ / 劣線形要約 / 半順序データ |
Outline of Research at the Start |
本研究ではこれまでの研究成果をもとに3つの課題に着手する.課題Ⅰでは射影積算法に基づき,時間・領域計算量O(log n) の劣線形EMS を開発する.課題ⅡではEMS,PMS,PSS の形式的関係に基づき,EMS からPMS,PMS からPSS へ順次拡張する.これにより EMS を基本モジュールとする劣線形 PSS を実現する.課題Ⅲでは天文学分野のエキスパートとの協力のもと,ストリーム型ビッグデータの実処理を通してPMS/PSS の応用可能性を検証していく.
|
Outline of Annual Research Achievements |
本研究の3年目にあたる本年は、昨年度に提案したカーネル密度推定 (Kernel Density Estimation, KDE) に基づくサポートサマリ GRACE の予備的な性能評価実験と計算量の理論的な解析を行った。GRACEは、KDEを与える劣線形スケッチ RACE (Repeated Arrays of Count Estimators) をグリッド上に配置した多層的なデータ構造を取る。RACEを基本要素としてGRACEを実装し、密なトランザクションデータストリームのベンチマークとして知られるマッシュルームデータに対して、サポートクエリに対する出力の近似精度とメモリ消費量の関係を検証した(実験結果は知識ベースシステム研究会にて発表)。次にサポートクエリに対してε劣性を満たすGRACEの空間計算量を解析的に調査したところ、トランザクション長を m に対して O(2^m) であることがわかった。ストリーム長 (トランザクションの個数) に依存しない点は一定の評価ができるものの、GRACEにおいてもトランザクションの長さに対する組み合わせ爆発は避けることができない見通しとなった。なお、PODS'16論文において、ε劣性を満たすサポートサマリの空間計算量の下界がΩ(m)であると示されているが、この下界とGRACEの計算量とは大きなギャップが存在している。ただし、下界に近い空間計算量で動作する非サンプリングアルゴリズムは存在し得ない (存在するとすればパターンマイニング研究の極めて重要な発見となる) と考えるのが一般的であり、現在、下界の方を修正することができないか解析を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究が目標としていた半順序ストリームデータの劣線形要約に関して、提案手法であるGRACEの理論的・実証的評価を行うことができている。
|
Strategy for Future Research Activity |
理論的解析から、任意のデータを対象とした汎用サマリとしてのGRACEの可用性は十分ではない。さらに先行研究で示されている下界とのギャップが大きい現状である。よって、今後はGRACEが応用可能なデータストリームの前提条件を検討するとともに、劣線形要約の下界に関する解析を進める予定である。
|
Report
(3 results)
Research Products
(21 results)