動的に変わる集合に対する類似検索のスケッチを利用した高速化
Project/Area Number |
21K11901
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 集合間類似検索 / スライディングウィンドウ / スケッチによる要約 / 転置インデクス / 株価予測 / データストリーム / スケッチ / Min Hash / 類似検索 / ストリームデータ / 近似解法 / データのスケッチ |
Outline of Research at the Start |
類似検索は、ウェブやSNSに基づく情報推薦の基盤技術である。例えば、ウェブの閲覧履歴が似たユーザを類似検索で発見し、類似ユーザが読んだウェブニュースをお薦めする推薦システムが考えられる。ここで、直近の履歴はスライディングウィンドウ内に保持された時間と共に変化するオブジェクト集合となり、情報推薦は動的に変化する集合を対象とした類似検索に帰着できる。
本研究では、システムの大規模化に対応するため、近似解法により類似検索を高速化する。要素が不変な通常の集合に対してはスケッチと呼ばれる「集合の要約表現」を用いた類似検索の高速化手法が存在し、本研究ではスケッチを動的に変化する集合を取り扱えるよう拡張する。
|
Outline of Annual Research Achievements |
昨年度に提案した動的に変化する集合を対象とするスケッチ更新アルゴリズムの空間計算量の削減に取り組んだ。本アルゴリズムでは、Min-Hashというハッシュ関数を利用してスケッチを作成する。ハッシュ値算出には(1)ハッシュ値割り当て表と(2)集合のヒストグラムが必要になるが、前者については表サイズを小さくする既存手法を採り入れて空間計算量の大幅な削減に成功した。一方で、後者についてはヒストグラムの空間計算量を大幅に減らすと集合からどの要素がいつ離脱するかという情報を保持できないため、スケッチの精度が下がるという問題が発生した。このため、後者については空間計算量を30パーセント程度削減するに留まった。動的に変化する集合に対して、省メモリで精度の高いヒストグラムを生成する手法が必要になっており、2023年度はこの条件を満たすヒストグラム生成法についても研究を進める。 一方、応用研究としては動的に変化するテキスト集合をクエリとする範囲類似検索 (Range Search)についても研究した。ここで動的に変化するテキスト集合とは、具体的には特定ユーザによるSNSへの投稿を指しており、類似検索により投稿内容が似た類似ユーザを探すことを目指している。本問題に対して転置インデクスを用いた高速解法を考案した。とくに提案手法では転置インデクスをクエリに対してのみ持たせることで、転置インデクスの管理オーバーヘッドを増やさずに高速処理を実現した。この他に、株価時系列を終値の集合と見なして類似検索ベースの株価予測にも取り組んだ。ここでは過去の類似時系列を検索して、過去の事例から株価の上昇/下落を予測する。そして、予測対象銘柄以外の他社データも過去の事例に加えた方が、予測精度が向上するという興味深い結果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
応用研究の方は順調に進んでおり、研究業績も着実に増えていっている。一方で、ヒストグラムの省メモリ化した時に起きる「どの要素がいつ離脱するかが不明になる」ために、スケッチ精度が劣化するという減少は、解決が困難である。最先端の研究でも近似ヒストグラムの誤差を下げる手法を提案するレベルに留まっている。要素離脱タイミングが正確に把握できないことが、アプリケーションに与える影響について考察した既存研究は、我々の調査した範囲では皆無である。
|
Strategy for Future Research Activity |
研究実績の概要に記載したように、提案手法は動的に変化する集合に対するヒストグラムのサイズを削減できていないという欠点を抱えている。しかし、その解決は簡単とは思えないので、現状のバージョンを査読付きのジャーナル/国際会議に投稿して、どのような評価を受けるかを見てみたい。また、スライディングウィンドウモデルで動的に変化する集合を対象とする、省メモリかつ高精度な近似ヒストグラム構築アルゴリズムも、研究例がとても少ないアクティブな研究課題であることがわかったので、今後はこのテーマも本研究課題のテーマに含めたい。 順調に進んでいる応用研究に関しては、アプリケーションをさらに増やすことを進める。具体的には、時系列データや距離ベース(distance based)の機械学習アルゴリズムを取り扱う予定である。
|
Report
(2 results)
Research Products
(7 results)
-
-
-
-
[Journal Article] Continuous Similarity Search for Text Sets2022
Author(s)
Y. Tsuchida, K. Kudo and H. Koga
-
Journal Title
Springer LNCS , Proc. 33rd International Conference on Database and Expert Systems Applications(DEXA 2022)
Volume: 13427
Pages: 229-234
DOI
ISBN
9783031124259, 9783031124266
Related Report
Peer Reviewed
-
-
-