2021 Fiscal Year Annual Research Report
Continuously Similarity Search for Evolvingi Sets
Project/Area Number |
18K11311
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | データストリーム / テキスト集合 / 類似検索 / 転置インデクス / 枝刈り |
Outline of Annual Research Achievements |
昨年度から継続して、ツイートのような短いテキストデータが到着するデータストリームを対象とした類似検索問題に取り組んだ。twitterのようなSNSでは、各ユーザUをUが投稿したテキストの集合によって特徴表現できる。このことから、類似テキスト集合を検索することで、SNS上で類似ユーザを発見できることになる。ただし、古い投稿はユーザUの現在の特性とは無関係である可能性が高いので、古いテキストを逐次的に削除して、ユーザを動的に要素が変化するテキスト集合としてモデル化した。 本研究では上記モデル化の下、クエリユーザQとの類似度が閾値εを超えるユーザをデータベース(つまりSNS)から検索するレンジ探索問題(Continuous similarity search for Text Streams, 以下、CTS問題)に取り組んでおり、枝刈りベースでテキスト比較回数を削減する高速アルゴリズム(遅延評価法)を開発した。しかし、これまでの実装ではテキスト検索でよく用いられる転置インデクスを採用していなかった。 そこで最終年度は、遅延評価法を転置インデクスを用いて高速化することに取り組んだ。CTS問題はクエリユーザとデータベースの両者が時間と共に変化するため、更新オーバーヘッドを考慮して転置インデクスを導入する必要がある。成果としては、クエリユーザ側にのみ転置インデクスを構築しデータベース側には転置インデクスを保持しない方式が、処理時間を最も短縮できることを明らかにした。これはデータベース内の多数のユーザに対して転置インデクスを作成すると、更新オーバーヘッドが膨大になり転置インデクスのメリットを打ち消してしまうためである。定量的には、我々が考案した適切な転置インデクスの導入により、遅延評価法の実行時間を約40%削減することに成功した。
|
Research Products
(2 results)