2021 年度実績報告書

時間と共に変化する集合を対象とした類似検索

研究課題

研究課題/領域番号	18K11311
研究機関	電気通信大学
研究代表者	古賀久志電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	データストリーム / テキスト集合 / 類似検索 / 転置インデクス / 枝刈り
研究実績の概要	昨年度から継続して、ツイートのような短いテキストデータが到着するデータストリームを対象とした類似検索問題に取り組んだ。twitterのようなSNSでは、各ユーザＵをＵが投稿したテキストの集合によって特徴表現できる。このことから、類似テキスト集合を検索することで、SNS上で類似ユーザを発見できることになる。ただし、古い投稿はユーザＵの現在の特性とは無関係である可能性が高いので、古いテキストを逐次的に削除して、ユーザを動的に要素が変化するテキスト集合としてモデル化した。本研究では上記モデル化の下、クエリユーザＱとの類似度が閾値εを超えるユーザをデータベース（つまりSNS)から検索するレンジ探索問題（Continuous similarity search for Text Streams, 以下、CTS問題）に取り組んでおり、枝刈りベースでテキスト比較回数を削減する高速アルゴリズム（遅延評価法）を開発した。しかし、これまでの実装ではテキスト検索でよく用いられる転置インデクスを採用していなかった。そこで最終年度は、遅延評価法を転置インデクスを用いて高速化することに取り組んだ。CTS問題はクエリユーザとデータベースの両者が時間と共に変化するため、更新オーバーヘッドを考慮して転置インデクスを導入する必要がある。成果としては、クエリユーザ側にのみ転置インデクスを構築しデータベース側には転置インデクスを保持しない方式が、処理時間を最も短縮できることを明らかにした。これはデータベース内の多数のユーザに対して転置インデクスを作成すると、更新オーバーヘッドが膨大になり転置インデクスのメリットを打ち消してしまうためである。定量的には、我々が考案した適切な転置インデクスの導入により、遅延評価法の実行時間を約40%削減することに成功した。

研究成果
(2件)

すべて 2022 2021

すべて雑誌論文 (1件) 学会発表 (1件)

[雑誌論文] 転置インデクスを用いた動的なテキスト集合に対する類似検索の高速化2021
- 著者名/発表者名
  土田祐将, 古賀久志
- 雑誌名
  
  信学技報
  
  巻: 121, no. 314, DE2021-15, ページ: 1-6
[学会発表] 動的なテキスト集合に対する類似検索アルゴリズムALE-Qの評価2022
- 著者名/発表者名
  土田祐将, 古賀久志
- 学会等名
  第14回データ工学と情報マネジメントに関するフォーラム(DEIM2022)