• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

時間と共に変化する集合を対象とした類似検索

研究課題

研究課題/領域番号 18K11311
研究機関電気通信大学

研究代表者

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

研究期間 (年度) 2018-04-01 – 2022-03-31
キーワードデータストリーム / テキスト集合 / 類似検索 / 転置インデクス / 枝刈り
研究実績の概要

昨年度から継続して、ツイートのような短いテキストデータが到着するデータストリームを対象とした類似検索問題に取り組んだ。twitterのようなSNSでは、各ユーザUをUが投稿したテキストの集合によって特徴表現できる。このことから、類似テキスト集合を検索することで、SNS上で類似ユーザを発見できることになる。ただし、古い投稿はユーザUの現在の特性とは無関係である可能性が高いので、古いテキストを逐次的に削除して、ユーザを動的に要素が変化するテキスト集合としてモデル化した。
本研究では上記モデル化の下、クエリユーザQとの類似度が閾値εを超えるユーザをデータベース(つまりSNS)から検索するレンジ探索問題(Continuous similarity search for Text Streams, 以下、CTS問題)に取り組んでおり、枝刈りベースでテキスト比較回数を削減する高速アルゴリズム(遅延評価法)を開発した。しかし、これまでの実装ではテキスト検索でよく用いられる転置インデクスを採用していなかった。
そこで最終年度は、遅延評価法を転置インデクスを用いて高速化することに取り組んだ。CTS問題はクエリユーザとデータベースの両者が時間と共に変化するため、更新オーバーヘッドを考慮して転置インデクスを導入する必要がある。成果としては、クエリユーザ側にのみ転置インデクスを構築しデータベース側には転置インデクスを保持しない方式が、処理時間を最も短縮できることを明らかにした。これはデータベース内の多数のユーザに対して転置インデクスを作成すると、更新オーバーヘッドが膨大になり転置インデクスのメリットを打ち消してしまうためである。定量的には、我々が考案した適切な転置インデクスの導入により、遅延評価法の実行時間を約40%削減することに成功した。

  • 研究成果

    (2件)

すべて 2022 2021

すべて 雑誌論文 (1件) 学会発表 (1件)

  • [雑誌論文] 転置インデクスを用いた動的なテキスト集合に対する類似検索の高速化2021

    • 著者名/発表者名
      土田祐将, 古賀久志
    • 雑誌名

      信学技報

      巻: 121, no. 314, DE2021-15, ページ: 1-6

  • [学会発表] 動的なテキスト集合に対する類似検索アルゴリズムALE-Qの評価2022

    • 著者名/発表者名
      土田祐将, 古賀久志
    • 学会等名
      第14回データ工学と情報マネジメントに関するフォーラム(DEIM2022)

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi