2020 Fiscal Year Annual Research Report
Development of Integrated Approximation and Compression Techniques for Next Generation Streaming Data Mining
Project/Area Number |
17K00301
|
Research Institution | Shizuoka University |
Principal Investigator |
山本 泰生 静岡大学, 情報学部, 准教授 (30550793)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | ストリームデータ / 頻出パターンマイニング / オンラインアルゴリズム |
Outline of Annual Research Achievements |
科研の最終年度にあたる今年度は,射影積算法に基づくデータ要約とオンライン頻出パターンマイニングの拡張に関する研究課題に取り組んだ.射影積算法は,メンバーシップクエリに応答する新しいフィルタリング法である.メンバーシップフィルタは最も基礎的なデータ構造として幅広い応用可能性を持つ.新しいフィルタリングの開発は昨年度より継続して取り組んでいる課題である.提案法である射影積算法は,高次元空間への射影ベクトルの積算ベクトルがメンバーシップクエリに確率的に応答可能である性質を利用する手法だが,空間計算量と誤り率の関係が明らかではなかった.今年度はまずその理論的解析を行った.結果としてデータ量の線形サイズのメモリを必要とすることがわかった.その後,カーネル関数の乗数を上げた応答感度の近似値を利用するアプローチを検討したが,線形オーダの空間計算量を突破するには至っていない (JSAI-KBS研究会にて発表).オンライン頻出パターンマイニングの拡張に関しては,漸近交差に基づく頻出集合系列マイニング法を実装し,集合系列に基づくイベント予測法の予備実験を行った.集合系列に基づくイベント予測の特徴は飛び飛びのイベント出現に注目した予測が行える点にある.本研究では,Yahoo!Research Webscopeが提供するHadoopクラスタのデータを用いて,多数のクライアントのファイルアクセスイベントを含む実際のログイベントにおける予測性能を検証している.
|