研究課題
昨年度から継続して、ツイートのような短いテキストデータが到着するデータストリームを対象とした類似検索問題に取り組んだ。twitterのようなSNSでは、各ユーザUをUが投稿したテキストの集合によって特徴表現できる。このことから、類似テキスト集合を検索することで、SNS上で類似ユーザを発見できることになる。ただし、古い投稿はユーザUの現在の特性とは無関係である可能性が高いので、古いテキストを逐次的に削除して、ユーザを動的に要素が変化するテキスト集合としてモデル化した。本研究では上記モデル化の下、クエリユーザQとの類似度が閾値εを超えるユーザをデータベース(つまりSNS)から検索するレンジ探索問題(Continuous similarity search for Text Streams, 以下、CTS問題)に取り組んでおり、枝刈りベースでテキスト比較回数を削減する高速アルゴリズム(遅延評価法)を開発した。しかし、これまでの実装ではテキスト検索でよく用いられる転置インデクスを採用していなかった。そこで最終年度は、遅延評価法を転置インデクスを用いて高速化することに取り組んだ。CTS問題はクエリユーザとデータベースの両者が時間と共に変化するため、更新オーバーヘッドを考慮して転置インデクスを導入する必要がある。成果としては、クエリユーザ側にのみ転置インデクスを構築しデータベース側には転置インデクスを保持しない方式が、処理時間を最も短縮できることを明らかにした。これはデータベース内の多数のユーザに対して転置インデクスを作成すると、更新オーバーヘッドが膨大になり転置インデクスのメリットを打ち消してしまうためである。定量的には、我々が考案した適切な転置インデクスの導入により、遅延評価法の実行時間を約40%削減することに成功した。
すべて 2022 2021
すべて 雑誌論文 (1件) 学会発表 (1件)
信学技報
巻: 121, no. 314, DE2021-15, ページ: 1-6