• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Continuously Similarity Search for Evolvingi Sets

Research Project

Project/Area Number 18K11311
Research InstitutionThe University of Electro-Communications

Principal Investigator

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

Project Period (FY) 2018-04-01 – 2022-03-31
Keywordsデータストリーム / テキスト集合 / 類似検索 / 転置インデクス / 枝刈り
Outline of Annual Research Achievements

昨年度から継続して、ツイートのような短いテキストデータが到着するデータストリームを対象とした類似検索問題に取り組んだ。twitterのようなSNSでは、各ユーザUをUが投稿したテキストの集合によって特徴表現できる。このことから、類似テキスト集合を検索することで、SNS上で類似ユーザを発見できることになる。ただし、古い投稿はユーザUの現在の特性とは無関係である可能性が高いので、古いテキストを逐次的に削除して、ユーザを動的に要素が変化するテキスト集合としてモデル化した。
本研究では上記モデル化の下、クエリユーザQとの類似度が閾値εを超えるユーザをデータベース(つまりSNS)から検索するレンジ探索問題(Continuous similarity search for Text Streams, 以下、CTS問題)に取り組んでおり、枝刈りベースでテキスト比較回数を削減する高速アルゴリズム(遅延評価法)を開発した。しかし、これまでの実装ではテキスト検索でよく用いられる転置インデクスを採用していなかった。
そこで最終年度は、遅延評価法を転置インデクスを用いて高速化することに取り組んだ。CTS問題はクエリユーザとデータベースの両者が時間と共に変化するため、更新オーバーヘッドを考慮して転置インデクスを導入する必要がある。成果としては、クエリユーザ側にのみ転置インデクスを構築しデータベース側には転置インデクスを保持しない方式が、処理時間を最も短縮できることを明らかにした。これはデータベース内の多数のユーザに対して転置インデクスを作成すると、更新オーバーヘッドが膨大になり転置インデクスのメリットを打ち消してしまうためである。定量的には、我々が考案した適切な転置インデクスの導入により、遅延評価法の実行時間を約40%削減することに成功した。

  • Research Products

    (2 results)

All 2022 2021

All Journal Article (1 results) Presentation (1 results)

  • [Journal Article] 転置インデクスを用いた動的なテキスト集合に対する類似検索の高速化2021

    • Author(s)
      土田祐将, 古賀久志
    • Journal Title

      信学技報

      Volume: 121, no. 314, DE2021-15, Pages: 1-6

  • [Presentation] 動的なテキスト集合に対する類似検索アルゴリズムALE-Qの評価2022

    • Author(s)
      土田祐将, 古賀久志
    • Organizer
      第14回データ工学と情報マネジメントに関するフォーラム(DEIM2022)

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi