• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

動的に変わる集合に対する類似検索のスケッチを利用した高速化

研究課題

研究課題/領域番号 21K11901
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分60080:データベース関連
研究機関電気通信大学

研究代表者

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード時系列データ / データストリーム / 類似検索 / ハッシュ / コンセプトドリフト / 集合間類似検索 / スライディングウィンドウ / スケッチによる要約 / 転置インデクス / 株価予測 / スケッチ / Min Hash / ストリームデータ / 近似解法 / データのスケッチ
研究開始時の研究の概要

類似検索は、ウェブやSNSに基づく情報推薦の基盤技術である。例えば、ウェブの閲覧履歴が似たユーザを類似検索で発見し、類似ユーザが読んだウェブニュースをお薦めする推薦システムが考えられる。ここで、直近の履歴はスライディングウィンドウ内に保持された時間と共に変化するオブジェクト集合となり、情報推薦は動的に変化する集合を対象とした類似検索に帰着できる。

本研究では、システムの大規模化に対応するため、近似解法により類似検索を高速化する。要素が不変な通常の集合に対してはスケッチと呼ばれる「集合の要約表現」を用いた類似検索の高速化手法が存在し、本研究ではスケッチを動的に変化する集合を取り扱えるよう拡張する。

研究実績の概要

今年度はスライディングウィンドウモデルのストリームデータに対して、到着データのヒストグラムをワンパスで高精度に構築する手法を開発した。既存手法では同一周期で0リセットされるカウンタを複数個利用する。しかしこのやり方では、各時刻で適切な値を持ったカウンタが実質1つしかなく確率的なゆらぎにロバストでない。我々はカウンタの周期を複数種類にすることで、確率的なゆらぎにロバストな手法を考案した。
また、ストリームデータを対象に、そのコンテンツが変化したことを高速に検出するアルゴリズムを実現した。本アルゴリズムは、ストリームデータに対する機械学習ベースのパターン認識において、データストリームの最新データが学習データから変化したことを検出したいという応用を想定している。コンテンツ変化を検出するには、現データが過去データから変わったことを認識すればよい。我々はデータ間類似度を近似的に高速算出することで変化検出にかかる時間を1/5に短縮した。
さらに、類似時系列を探索する研究テーマに関して外部発表を2件行った。1つ目は類似時系列をハッシュテーブル上で高速検索する手法である。本手法では部分時系列をハッシュテーブルに登録しておき、共通の部分時系列を持つ類似時系列候補を高速発見する。とくに部分時系列が時系列内でどこに存在するかという情報を活用して、類似時系列の候補を高精度に絞り込んでいる。2つ目は圧縮ベースパターン認識を用いて類似時系列を探索する手法である。データ圧縮アルゴリズムのパラメータを検証データを学習して決定することで、時系列データの分類精度を向上できることを示した。さらに、パラメータを学習しないと分類精度が低下するメカニズムも明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

昨年度に引き続き、応用領域については研究成果が順調に増えている。一方で、メインテーマである動的に変化する集合に対するスケッチ作成アルゴリズムに関しては、難度が高いことが判明したため開発を保留している状況である。現状はアルゴリズム開発の準備として、スケッチ生成のための基礎データとなるヒストグラムを高精度でオンライン構築する手法を実現することを目指している。このヒストグラムのオンライン構築に関しては令和6年度中に研究成果を発表できる見込みである。しかし、作成したヒストグラムをスケッチ生成に組み込む方法は自明でない。この結果、現状ではストリームデータに対してワンパスでスケッチを構成できておらず、高速に動作するものの空間計算量が大きいアルゴリズムしか実現できていない。

今後の研究の推進方策

ストリームデータをワンパスで処理することは重要である。しかしながら現況を省みると、世界の最先端レベルでもストリームデータをワンパスで処理する制約条件下で高精度なスケッチを作成することが全くできていない。つまり、本研究課題の研究テーマは非常に難度が高い。このような状況なので、本研究課題を今後推進するには、(1) ストリームデータを複数回スキャンする条件下で高速なスケッチ生成を実現するというテーマと(2)ワンパスでストリームデータに対して高精度な近似ヒストグラムを生成するという2つのテーマに分けて研究を進めるのが現実的と考えている。令和6年度は、上記2つのテーマの両者で研究成果を外部発表することを目指す。

報告書

(3件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (12件)

すべて 2023 2022

すべて 雑誌論文 (9件) (うち査読あり 7件、 オープンアクセス 1件) 学会発表 (3件)

  • [雑誌論文] Continuous Similarity Search for Dynamic Text Streams2023

    • 著者名/発表者名
      TSUCHIDA Yuma、KUBO Kohei、KOGA Hisashi
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E106.D 号: 12 ページ: 2026-2035

    • DOI

      10.1587/transinf.2022EDP7229

    • ISSN
      0916-8532, 1745-1361
    • 年月日
      2023-12-01
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Improved Recurrence Plots Compression Distance by Learning Parameter for Video Compression Quality2023

    • 著者名/発表者名
      Murai Tatsumasa、Koga Hisashi
    • 雑誌名

      Entropy

      巻: 25 号: 6 ページ: 953-953

    • DOI

      10.3390/e25060953

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Approximate Similarity Search for Time Series Data Enhanced by Section Min-Hash2023

    • 著者名/発表者名
      Tomoda Ryota、Koga Hisashi
    • 雑誌名

      Springer LNCS, Proc 16th International Conference on Similarity Search and Applications (SISAP2023)

      巻: 14289 ページ: 19-32

    • DOI

      10.1007/978-3-031-46994-7_2

    • ISBN
      9783031469930, 9783031469947
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Deep Hashing Capable of Adding New Dataset without Class Labels2023

    • 著者名/発表者名
      Chenyang Ye、Koga Hisashi
    • 雑誌名

      IEEE, Proc. 2023 International Joint Conference on Neural Networks

      巻: (IJCNN) ページ: 1-9

    • DOI

      10.1109/ijcnn54540.2023.10191232

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Product Quantization を用いた高速コンセプトドリフト検出2023

    • 著者名/発表者名
      高野大晴, 古賀久志
    • 雑誌名

      情処研報

      巻: 2023-DBS-178(2), ページ: 1-8

    • 関連する報告書
      2023 実施状況報告書
  • [雑誌論文] 文字位置に着目した Min-Hash ベースの文字列類似検索2023

    • 著者名/発表者名
      古賀久志,別府直輝, 笠井龍一
    • 雑誌名

      人工知能学会研究資料

      巻: SIG-FPAI-124 ページ: 31-36

    • 関連する報告書
      2022 実施状況報告書
  • [雑誌論文] IDTWを用いた個別銘柄を対象とした株価予測2022

    • 著者名/発表者名
      中尾 友紀,古賀久志
    • 雑誌名

      情報処理学会論文誌

      巻: 63 号: 9 ページ: 1512-1517

    • DOI

      10.20729/00220096

    • ISSN
      1882-7764
    • 年月日
      2022-09-15
    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] Exact Algorithm to Solve Continuous Similarity Search for Evolving Queries and Its Variant2022

    • 著者名/発表者名
      T. Yamazaki and H. Koga
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E105.D 号: 5 ページ: 898-908

    • DOI

      10.1587/transinf.2021DAP0003

    • ISSN
      0916-8532, 1745-1361
    • 年月日
      2022-05-01
    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Continuous Similarity Search for Text Sets2022

    • 著者名/発表者名
      Y. Tsuchida, K. Kudo and H. Koga
    • 雑誌名

      Springer LNCS , Proc. 33rd International Conference on Database and Expert Systems Applications(DEXA 2022)

      巻: 13427 ページ: 229-234

    • DOI

      10.1007/978-3-031-12426-6_18

    • ISBN
      9783031124259, 9783031124266
    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [学会発表] 区間Min-Hashを用いた時系列データに対する近似最近傍探索2023

    • 著者名/発表者名
      友田涼太, 古賀久志
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 画像の追加を許容するDeep Hashingに基づく類似画像検索2022

    • 著者名/発表者名
      Ye Chenyang,古賀久志
    • 学会等名
      第21回情報科学技術フォーラム(FIT2022)
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] データストリームを対象とした動的多重集合に対する Min-hash の高速計算アルゴリズム2022

    • 著者名/発表者名
      三原寛寿,古賀久志
    • 学会等名
      第14回データ工学と情報マネジメントに関するフォーラム(DEIM2022)
    • 関連する報告書
      2021 実施状況報告書

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi