研究課題/領域番号 |
21K11901
|
研究機関 | 電気通信大学 |
研究代表者 |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | データストリーム / 集合間類似検索 / スケッチ / Min Hash |
研究実績の概要 |
本研究課題はデータストリームを対象とする類似検索を取り扱う。その具体的な応用としては、嗜好性が似たユーザの発見が挙げられる。例えば、閲覧したウェブニュース記事の集合が互いに似た2ユーザは、興味がある事柄が似ており、嗜好性が似ていると言える。このようにして、類似ユーザ検索を集合間類似検索に帰着できる。 要素が固定した通常の集合に対しては、Min Hashというハッシュ関数を利用して集合の要約(スケッチ)を事前生成し、スケッチ間で軽量に類似度計算することで、類似検索を高速化できる。しかし、ストリーム環境では新しい要素の追加と古い要素の消滅が起きるため、スケッチを高速更新する必要がある。そこで本研究では、ストリーム環境で集合の要素が入れ替わる状況で、Min Hashを高速計算するアルゴリズムの開発に取り組んだ。 そして2021年度は、多重集合を取り扱えなかったDatarらの既存手法を、多重集合が取り扱えるよう拡張することに成功した。ここで、多重集合とは同じラベルの要素を複数持てる集合のことである。Min Hashは集合の各要素に確率的に値を割り当て、その最小値をハッシュ値とする。既存手法では将来的に最小値になりえない要素を削除して、ハッシュ値再計算のオーバーヘッドを削減している。しかし、多重集合の場合、要素への割り当て値が多重度に依存して動的に変わるため将来的に最小値になりえるかの判定が困難になる。我々の提案手法は、この厳しい条件下で、将来的に最小値にならない要素を判別する。さらに同一ラベルの要素を、提案手法が高々1つだけ保持すればよいことも示せた。集合の要素数をWとすると、提案手法の計算時間は実験的にlog Wに比例し、O(W)かかるベースライン手法より圧倒的に高速に動作することを確認できた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の予定では、実行時間の短縮のみならず、空間計算量の削減まで達成する予定であったが、実行時間を削減する手段の試行錯誤に時間が取られてしまい、空間計算量の削減にまで手が回らなかった。2021年度末で実行時間の削減手段は確立できたので、2022年度は空間計算量の削減に集中的に研究時間を充当する。
|
今後の研究の推進方策 |
2022年度は以下の2つの課題に取り組む。 (1) まず提案手法の空間計算量を削減する。具体的には多重集合の各ラベルの多重度を要約表現するCount Min-Sketchを提案手法に組み込み、ヒストグラムを圧縮して使用メモリ量を削減する。しかし、この方式ではラベルの多重度が近似値になるため、ハッシュ値が不正確になり、集合間類似度も不正確になることが懸念される。集合間類似度が不正確になることで、類似検索結果がどのくらい悪化するかを実験的に確認しながら、空間計算量と検索精度との最適なバランスを探求する。
(2) 類似検索の精度を実データを用いて実験評価する。昨年度はMin Hashのハッシュ値を高速計算するアルゴリズムを提案した。2022年度は、Min Hashのハッシュ値から集合に対するスケッチを生成するアルゴリズムを完成させる。そして、実データを用いた実験評価によって、提案手法が検索精度を劣化させることなく、類似検索の実行時間を短縮できることを示したい。
|
次年度使用額が生じた理由 |
2021年度の進捗により、ハッシュ値を高速計算できるようになったものの、提案手法が類似検索全体を高速化できることを示すまでに至らなかった。その結果、研究成果をレベルの高い国際会議やジャーナルで発表できなかったため、旅費や論文投稿費が未使用となり、次年度使用額が発生した。 この次年度使用額は2022年度に研究成果を対外発表する際に使用する。
|