• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

動的に変わる集合に対する類似検索のスケッチを利用した高速化

研究課題

研究課題/領域番号 21K11901
研究機関電気通信大学

研究代表者

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

研究期間 (年度) 2021-04-01 – 2025-03-31
キーワード集合間類似検索 / スライディングウィンドウ / スケッチによる要約 / 転置インデクス / 株価予測
研究実績の概要

昨年度に提案した動的に変化する集合を対象とするスケッチ更新アルゴリズムの空間計算量の削減に取り組んだ。本アルゴリズムでは、Min-Hashというハッシュ関数を利用してスケッチを作成する。ハッシュ値算出には(1)ハッシュ値割り当て表と(2)集合のヒストグラムが必要になるが、前者については表サイズを小さくする既存手法を採り入れて空間計算量の大幅な削減に成功した。一方で、後者についてはヒストグラムの空間計算量を大幅に減らすと集合からどの要素がいつ離脱するかという情報を保持できないため、スケッチの精度が下がるという問題が発生した。このため、後者については空間計算量を30パーセント程度削減するに留まった。動的に変化する集合に対して、省メモリで精度の高いヒストグラムを生成する手法が必要になっており、2023年度はこの条件を満たすヒストグラム生成法についても研究を進める。
一方、応用研究としては動的に変化するテキスト集合をクエリとする範囲類似検索 (Range Search)についても研究した。ここで動的に変化するテキスト集合とは、具体的には特定ユーザによるSNSへの投稿を指しており、類似検索により投稿内容が似た類似ユーザを探すことを目指している。本問題に対して転置インデクスを用いた高速解法を考案した。とくに提案手法では転置インデクスをクエリに対してのみ持たせることで、転置インデクスの管理オーバーヘッドを増やさずに高速処理を実現した。この他に、株価時系列を終値の集合と見なして類似検索ベースの株価予測にも取り組んだ。ここでは過去の類似時系列を検索して、過去の事例から株価の上昇/下落を予測する。そして、予測対象銘柄以外の他社データも過去の事例に加えた方が、予測精度が向上するという興味深い結果を得た。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

応用研究の方は順調に進んでおり、研究業績も着実に増えていっている。一方で、ヒストグラムの省メモリ化した時に起きる「どの要素がいつ離脱するかが不明になる」ために、スケッチ精度が劣化するという減少は、解決が困難である。最先端の研究でも近似ヒストグラムの誤差を下げる手法を提案するレベルに留まっている。要素離脱タイミングが正確に把握できないことが、アプリケーションに与える影響について考察した既存研究は、我々の調査した範囲では皆無である。

今後の研究の推進方策

研究実績の概要に記載したように、提案手法は動的に変化する集合に対するヒストグラムのサイズを削減できていないという欠点を抱えている。しかし、その解決は簡単とは思えないので、現状のバージョンを査読付きのジャーナル/国際会議に投稿して、どのような評価を受けるかを見てみたい。また、スライディングウィンドウモデルで動的に変化する集合を対象とする、省メモリかつ高精度な近似ヒストグラム構築アルゴリズムも、研究例がとても少ないアクティブな研究課題であることがわかったので、今後はこのテーマも本研究課題のテーマに含めたい。
順調に進んでいる応用研究に関しては、アプリケーションをさらに増やすことを進める。具体的には、時系列データや距離ベース(distance based)の機械学習アルゴリズムを取り扱う予定である。

次年度使用額が生じた理由

メインテーマである動的に変化する集合に対するスケッチに関して外部発表をしなかったため、論文誌/国際会議への投稿費用が余った。2023年度に論文誌投稿費用として使用する。

  • 研究成果

    (6件)

すべて 2023 2022

すべて 雑誌論文 (4件) (うち査読あり 3件、 オープンアクセス 1件) 学会発表 (2件)

  • [雑誌論文] 文字位置に着目した Min-Hash ベースの文字列類似検索2023

    • 著者名/発表者名
      古賀久志,別府直輝, 笠井龍一
    • 雑誌名

      人工知能学会研究資料

      巻: SIG-FPAI-124 ページ: 31-36

  • [雑誌論文] Exact Algorithm to Solve Continuous Similarity Search for Evolving Queries and Its Variant2022

    • 著者名/発表者名
      T. Yamazaki and H. Koga
    • 雑誌名

      IEICE TRANSACTIONS on Information and Systems

      巻: 105-D(5) ページ: 898-908

    • DOI

      10.1587/transinf.2021DAP0003

    • 査読あり / オープンアクセス
  • [雑誌論文] IDTW を用いた個別銘柄を対象とした株価予測2022

    • 著者名/発表者名
      中尾 友紀,古賀久志
    • 雑誌名

      情報処理学会論文誌

      巻: 63(9) ページ: 1512-1517

    • DOI

      10.20729/00220096

    • 査読あり
  • [雑誌論文] Continuous Similarity Search for Text Sets2022

    • 著者名/発表者名
      Y. Tsuchida, K. Kudo and H. Koga
    • 雑誌名

      Springer LNCS , Proc. 33rd International Conference on Database and Expert Systems Applications(DEXA 2022)

      巻: 13427 ページ: 229-234

    • DOI

      10.1007/978-3-031-12426-6_18

    • 査読あり
  • [学会発表] 区間Min-Hashを用いた時系列データに対する近似最近傍探索2023

    • 著者名/発表者名
      友田涼太, 古賀久志
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム
  • [学会発表] 画像の追加を許容するDeep Hashingに基づく類似画像検索2022

    • 著者名/発表者名
      Ye Chenyang,古賀久志
    • 学会等名
      第21回情報科学技術フォーラム(FIT2022)

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi