• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

動的に変わる集合に対する類似検索のスケッチを利用した高速化

Research Project

Project/Area Number 21K11901
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 60080:Database-related
Research InstitutionThe University of Electro-Communications

Principal Investigator

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

Project Period (FY) 2021-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywords時系列データ / データストリーム / 類似検索 / ハッシュ / コンセプトドリフト / 集合間類似検索 / スライディングウィンドウ / スケッチによる要約 / 転置インデクス / 株価予測 / スケッチ / Min Hash / ストリームデータ / 近似解法 / データのスケッチ
Outline of Research at the Start

類似検索は、ウェブやSNSに基づく情報推薦の基盤技術である。例えば、ウェブの閲覧履歴が似たユーザを類似検索で発見し、類似ユーザが読んだウェブニュースをお薦めする推薦システムが考えられる。ここで、直近の履歴はスライディングウィンドウ内に保持された時間と共に変化するオブジェクト集合となり、情報推薦は動的に変化する集合を対象とした類似検索に帰着できる。

本研究では、システムの大規模化に対応するため、近似解法により類似検索を高速化する。要素が不変な通常の集合に対してはスケッチと呼ばれる「集合の要約表現」を用いた類似検索の高速化手法が存在し、本研究ではスケッチを動的に変化する集合を取り扱えるよう拡張する。

Outline of Annual Research Achievements

今年度はスライディングウィンドウモデルのストリームデータに対して、到着データのヒストグラムをワンパスで高精度に構築する手法を開発した。既存手法では同一周期で0リセットされるカウンタを複数個利用する。しかしこのやり方では、各時刻で適切な値を持ったカウンタが実質1つしかなく確率的なゆらぎにロバストでない。我々はカウンタの周期を複数種類にすることで、確率的なゆらぎにロバストな手法を考案した。
また、ストリームデータを対象に、そのコンテンツが変化したことを高速に検出するアルゴリズムを実現した。本アルゴリズムは、ストリームデータに対する機械学習ベースのパターン認識において、データストリームの最新データが学習データから変化したことを検出したいという応用を想定している。コンテンツ変化を検出するには、現データが過去データから変わったことを認識すればよい。我々はデータ間類似度を近似的に高速算出することで変化検出にかかる時間を1/5に短縮した。
さらに、類似時系列を探索する研究テーマに関して外部発表を2件行った。1つ目は類似時系列をハッシュテーブル上で高速検索する手法である。本手法では部分時系列をハッシュテーブルに登録しておき、共通の部分時系列を持つ類似時系列候補を高速発見する。とくに部分時系列が時系列内でどこに存在するかという情報を活用して、類似時系列の候補を高精度に絞り込んでいる。2つ目は圧縮ベースパターン認識を用いて類似時系列を探索する手法である。データ圧縮アルゴリズムのパラメータを検証データを学習して決定することで、時系列データの分類精度を向上できることを示した。さらに、パラメータを学習しないと分類精度が低下するメカニズムも明らかにした。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

昨年度に引き続き、応用領域については研究成果が順調に増えている。一方で、メインテーマである動的に変化する集合に対するスケッチ作成アルゴリズムに関しては、難度が高いことが判明したため開発を保留している状況である。現状はアルゴリズム開発の準備として、スケッチ生成のための基礎データとなるヒストグラムを高精度でオンライン構築する手法を実現することを目指している。このヒストグラムのオンライン構築に関しては令和6年度中に研究成果を発表できる見込みである。しかし、作成したヒストグラムをスケッチ生成に組み込む方法は自明でない。この結果、現状ではストリームデータに対してワンパスでスケッチを構成できておらず、高速に動作するものの空間計算量が大きいアルゴリズムしか実現できていない。

Strategy for Future Research Activity

ストリームデータをワンパスで処理することは重要である。しかしながら現況を省みると、世界の最先端レベルでもストリームデータをワンパスで処理する制約条件下で高精度なスケッチを作成することが全くできていない。つまり、本研究課題の研究テーマは非常に難度が高い。このような状況なので、本研究課題を今後推進するには、(1) ストリームデータを複数回スキャンする条件下で高速なスケッチ生成を実現するというテーマと(2)ワンパスでストリームデータに対して高精度な近似ヒストグラムを生成するという2つのテーマに分けて研究を進めるのが現実的と考えている。令和6年度は、上記2つのテーマの両者で研究成果を外部発表することを目指す。

Report

(3 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (12 results)

All 2023 2022

All Journal Article (9 results) (of which Peer Reviewed: 7 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] Continuous Similarity Search for Dynamic Text Streams2023

    • Author(s)
      TSUCHIDA Yuma、KUBO Kohei、KOGA Hisashi
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E106.D Issue: 12 Pages: 2026-2035

    • DOI

      10.1587/transinf.2022EDP7229

    • ISSN
      0916-8532, 1745-1361
    • Year and Date
      2023-12-01
    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Improved Recurrence Plots Compression Distance by Learning Parameter for Video Compression Quality2023

    • Author(s)
      Murai Tatsumasa、Koga Hisashi
    • Journal Title

      Entropy

      Volume: 25 Issue: 6 Pages: 953-953

    • DOI

      10.3390/e25060953

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Approximate Similarity Search for Time Series Data Enhanced by Section Min-Hash2023

    • Author(s)
      Tomoda Ryota、Koga Hisashi
    • Journal Title

      Springer LNCS, Proc 16th International Conference on Similarity Search and Applications (SISAP2023)

      Volume: 14289 Pages: 19-32

    • DOI

      10.1007/978-3-031-46994-7_2

    • ISBN
      9783031469930, 9783031469947
    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Deep Hashing Capable of Adding New Dataset without Class Labels2023

    • Author(s)
      Chenyang Ye、Koga Hisashi
    • Journal Title

      IEEE, Proc. 2023 International Joint Conference on Neural Networks

      Volume: (IJCNN) Pages: 1-9

    • DOI

      10.1109/ijcnn54540.2023.10191232

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Product Quantization を用いた高速コンセプトドリフト検出2023

    • Author(s)
      高野大晴, 古賀久志
    • Journal Title

      情処研報

      Volume: 2023-DBS-178(2), Pages: 1-8

    • Related Report
      2023 Research-status Report
  • [Journal Article] 文字位置に着目した Min-Hash ベースの文字列類似検索2023

    • Author(s)
      古賀久志,別府直輝, 笠井龍一
    • Journal Title

      人工知能学会研究資料

      Volume: SIG-FPAI-124 Pages: 31-36

    • Related Report
      2022 Research-status Report
  • [Journal Article] Stock Price Prediction for Individual Brands with Indexing DTW2022

    • Author(s)
      中尾 友紀,古賀久志
    • Journal Title

      情報処理学会論文誌

      Volume: 63 Issue: 9 Pages: 1512-1517

    • DOI

      10.20729/00220096

    • ISSN
      1882-7764
    • Year and Date
      2022-09-15
    • Related Report
      2022 Research-status Report
    • Peer Reviewed
  • [Journal Article] Exact Algorithm to Solve Continuous Similarity Search for Evolving Queries and Its Variant2022

    • Author(s)
      T. Yamazaki and H. Koga
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E105.D Issue: 5 Pages: 898-908

    • DOI

      10.1587/transinf.2021DAP0003

    • ISSN
      0916-8532, 1745-1361
    • Year and Date
      2022-05-01
    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Continuous Similarity Search for Text Sets2022

    • Author(s)
      Y. Tsuchida, K. Kudo and H. Koga
    • Journal Title

      Springer LNCS , Proc. 33rd International Conference on Database and Expert Systems Applications(DEXA 2022)

      Volume: 13427 Pages: 229-234

    • DOI

      10.1007/978-3-031-12426-6_18

    • ISBN
      9783031124259, 9783031124266
    • Related Report
      2022 Research-status Report
    • Peer Reviewed
  • [Presentation] 区間Min-Hashを用いた時系列データに対する近似最近傍探索2023

    • Author(s)
      友田涼太, 古賀久志
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
    • Related Report
      2022 Research-status Report
  • [Presentation] 画像の追加を許容するDeep Hashingに基づく類似画像検索2022

    • Author(s)
      Ye Chenyang,古賀久志
    • Organizer
      第21回情報科学技術フォーラム(FIT2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] データストリームを対象とした動的多重集合に対する Min-hash の高速計算アルゴリズム2022

    • Author(s)
      三原寛寿,古賀久志
    • Organizer
      第14回データ工学と情報マネジメントに関するフォーラム(DEIM2022)
    • Related Report
      2021 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi