2023 Fiscal Year Research-status Report
動的に変わる集合に対する類似検索のスケッチを利用した高速化
Project/Area Number |
21K11901
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 時系列データ / データストリーム / 類似検索 / ハッシュ / コンセプトドリフト |
Outline of Annual Research Achievements |
今年度はスライディングウィンドウモデルのストリームデータに対して、到着データのヒストグラムをワンパスで高精度に構築する手法を開発した。既存手法では同一周期で0リセットされるカウンタを複数個利用する。しかしこのやり方では、各時刻で適切な値を持ったカウンタが実質1つしかなく確率的なゆらぎにロバストでない。我々はカウンタの周期を複数種類にすることで、確率的なゆらぎにロバストな手法を考案した。 また、ストリームデータを対象に、そのコンテンツが変化したことを高速に検出するアルゴリズムを実現した。本アルゴリズムは、ストリームデータに対する機械学習ベースのパターン認識において、データストリームの最新データが学習データから変化したことを検出したいという応用を想定している。コンテンツ変化を検出するには、現データが過去データから変わったことを認識すればよい。我々はデータ間類似度を近似的に高速算出することで変化検出にかかる時間を1/5に短縮した。 さらに、類似時系列を探索する研究テーマに関して外部発表を2件行った。1つ目は類似時系列をハッシュテーブル上で高速検索する手法である。本手法では部分時系列をハッシュテーブルに登録しておき、共通の部分時系列を持つ類似時系列候補を高速発見する。とくに部分時系列が時系列内でどこに存在するかという情報を活用して、類似時系列の候補を高精度に絞り込んでいる。2つ目は圧縮ベースパターン認識を用いて類似時系列を探索する手法である。データ圧縮アルゴリズムのパラメータを検証データを学習して決定することで、時系列データの分類精度を向上できることを示した。さらに、パラメータを学習しないと分類精度が低下するメカニズムも明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
昨年度に引き続き、応用領域については研究成果が順調に増えている。一方で、メインテーマである動的に変化する集合に対するスケッチ作成アルゴリズムに関しては、難度が高いことが判明したため開発を保留している状況である。現状はアルゴリズム開発の準備として、スケッチ生成のための基礎データとなるヒストグラムを高精度でオンライン構築する手法を実現することを目指している。このヒストグラムのオンライン構築に関しては令和6年度中に研究成果を発表できる見込みである。しかし、作成したヒストグラムをスケッチ生成に組み込む方法は自明でない。この結果、現状ではストリームデータに対してワンパスでスケッチを構成できておらず、高速に動作するものの空間計算量が大きいアルゴリズムしか実現できていない。
|
Strategy for Future Research Activity |
ストリームデータをワンパスで処理することは重要である。しかしながら現況を省みると、世界の最先端レベルでもストリームデータをワンパスで処理する制約条件下で高精度なスケッチを作成することが全くできていない。つまり、本研究課題の研究テーマは非常に難度が高い。このような状況なので、本研究課題を今後推進するには、(1) ストリームデータを複数回スキャンする条件下で高速なスケッチ生成を実現するというテーマと(2)ワンパスでストリームデータに対して高精度な近似ヒストグラムを生成するという2つのテーマに分けて研究を進めるのが現実的と考えている。令和6年度は、上記2つのテーマの両者で研究成果を外部発表することを目指す。
|
Causes of Carryover |
メインテーマである動的に変化する集合に対するスケッチに関して外部発表をしなかったため、論文誌/国際会議への投稿費用が余った。2024年度に論文誌あるいは国際会議への投稿費用として使用する。
|