研究課題/領域番号 |
18K11311
|
研究機関 | 電気通信大学 |
研究代表者 |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | ストリームデータ / テキスト集合 / 枝刈りアルゴリズム / 類似検索 / 2部グラフ |
研究実績の概要 |
今年度はSNS上での類似ユーザ探索を応用として想定し、ツイートのような短いテキストデータが到着するデータストリームを対象とする類似検索に取り組んだ。SNSでは、各ユーザは時間経過と共にテキストを投稿するので、投稿したテキスト集合によりユーザを特徴表現できる。すると、テキスト集合間の類似検索により、類似ユーザを発見することが可能になる。ただし、古い投稿はユーザの現在の特徴と無関係である可能性が高いので、古いテキストを逐次的に排除し、ユーザを動的に変化するテキスト集合としてモデル化した。 このフレームワークの下、まず、類似度が指定された閾値Θ以上となるユーザを検索するレンジ探索問題を定式化した。ここでは、2つのテキスト集合U, V間の類似度をどう定義するかがそもそも自明ではない。本研究ではU,Vの似たテキストペア間に枝を張って2部グラフを作り、最大マッチングサイズを類似度と定めた。 次に本問題を解くアルゴリズムを探求した。最大マッチングは計算量が膨大でリアルタイム処理が困難なので、極大マッチングサイズを近似類似度とする近似解法を開発した。この解法は、近似類似度を正確に求めず閾値Θを上回るかを判定するのに必要な分だけテキストペア間で類似度を評価する枝刈りベースのアルゴリズムである。とくに、前時刻の状態(つまり、ユーザU,Vが類似か非類似か)に依って、どのテキストペアの類似度を先に評価するかを適応的に変える点が、既存アルゴリズムに見られないユニークな特色である。Flickrに投稿された画像のタグを実データとして評価実験を行い、提案手法が枝刈りをしないベースライン手法よりも高速に動作することを示した。 本研究は類似ユーザを高速発見することを可能にし、類似ユーザが好む商品を推薦するといった情報推薦システムの効率化に寄与する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年度までは動的に変化する集合の要素はアルファベットだったが、今年度は集合の要素がテキストに拡張されたより難しい問題設定を検討し、その上で高速な近似解法を構築し、実データを使った評価まで実施できた。また前年度に考案した、動的に変化する複数のデータストリームを対象としたk-NN探索問題に対する枝刈りベースの厳密解法を、実験評価を充実させることで査読付き国際会議で発表できた。この他に、前年度に考案したクラスタリングアルゴリズムに関する研究成果をやはり実験評価を充実させることで査読付き学術雑誌で発表できた。
|
今後の研究の推進方策 |
2021年度は以下の3つを実施予定である。 1. 2020年度に開発したテキスト集合に対する類似検索アルゴリズムのさらなる高速化。ここでは、転置インデックスというテキスト検索でよく使われる索引構造を提案類似検索アルゴリズムに組み込んで、枝刈り効率を向上させる。 2. 本研究課題で考案した類似検索アルゴリズムは枝刈りベースの手法である。実行時間をさらに大幅に短縮させるために、ハッシュベースの類似検索アルゴリズムの開発に取り組む。 3. ここまで本研究課題で取り扱った「動的に変化する集合」では要素の時間的な順序は類似度の値に影響しない。この性質は取り扱う対象が集合なので妥当である。一方で、要素の時間順が意味を持つ文字列や時系列データに対しても、動的に変化する状況下での類似検索が意外と研究が進んでないことがわかって来た。そこで、本研究のこれまでの研究成果を文字列/時系列データに拡張したい。
|
次年度使用額が生じた理由 |
学術雑誌に2021年3月に論文が掲載されたが、掲載料の支払いが2021年度にずれ込んでしまった。また、テキスト集合の類似検索に関する研究成果が、国内研究会での発表にとどまり、ジャーナル論文化まで至らなかったため、予定していた論文掲載料が発生しなかった。 次年度使用額に関しては、まず学術雑誌への掲載が決定した論文の掲載料を5月に支払う。そして、テキスト集合の類似検索に関する研究成果を学術雑誌に投稿予定であり、そこでの論文掲載料として使用する。
|