研究課題/領域番号 |
18K11311
|
研究機関 | 電気通信大学 |
研究代表者 |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | ストリームデータ / 集合 / 類似検索 / 枝刈りアルゴリズム / クラスタリング |
研究実績の概要 |
今年度は、動的に変化する集合で構成されたデータベースを対象とした集合間類似検索に取り組んだ。昨年度に、類似度計算回数を減らすための枝刈りテクニックを2つ考案したが、それらを組み込んだ類似検索アルゴリズムを完成させ実験評価を完了した。2つのテクニックとは、(1)枝刈りに用いる類似度の上限値を毎時刻更新し、上限値を厳密に求める「逐次更新法」及び(2)動的に変化する集合から将来離脱する要素は、現時点で集合内に存在し既知であるという性質に基づき、将来の類似度上限値を厳密に求める「共通要素法」である。実験の結果、これら2つが互いの弱点を補完するという興味深い知見が得られた。すなわち、クエリ集合とデータベース内集合との平均類似度が低い場合は、共通要素が少ないため共通要素法は効果的でないが、逐次更新法で上限値を厳密に求めるメリットが大きい。逆に、クエリ集合とデータベース内集合間の平均類似度が高い場合は、そもそもの類似度が大きいため逐次更新法で上限値を厳密化する効果は弱まるが、共通要素の数は増えるため共通要素法が有効になる。この成果は国内研究会で発表し、現在、査読付き国際会議に投稿中である。 また、動的に変化する集合の要素をアルファベットから、自然言語に拡張する研究に着手した。これは例えば、twitterのユーザをツイート集合で特徴表現し、類似ユーザをオンライン検索する問題を想定している。関連して、自然言語用の類似度に関する研究も実施し、コサイン類似度をデータ分布に適応的になるよう拡張した多観点類似度に着目し、多観点類似度を採用した階層的クラスタリングアルゴリズムを開発した。多観点類似度はコサイン類似度よりも複雑であるが、クラスタ間類似度を高速計算することで、提案手法がコサイン類似度に基づく階層クラスタリングアルゴリズムと同等の速度で、クラスタリングの分類性能を改善できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「時間と共に変化する集合から構成されるデータベースを対象とした類似検索」という本研究課題のメインのテーマに対して、類似検索アルゴリズムの高速化を完了したため。
|
今後の研究の推進方策 |
今後の研究方向としては以下の3つを実施予定である。 1.今年度から着手したテキスト(自然言語)を要素とする集合を対象とした類似検索アルゴリズムの開発を最優先課題とする。集合の要素をアルファベットからテキストに変更したことで、2つの集合間の共通要素が自明でなくなり類似度を算出するオーバーヘッドが大きくなることが想定される。そのため、類似度の近似値を導入する必要があると見込んでいるが、近似類似度を用いた類似検索アルゴリズムをどう性能評価するかが難しい。過去の研究事例を迅速に調査する必要がある。 2.これまでは、データベースあるいはクエリの片方だけが動的に変化する類似検索問題を取り扱った。今後は、両方が動的に変化する問題設定を取り扱う。これはデータベースのみが変化する問題に対する検索アルゴリズムを自然に拡張すれば対応できると予想している。 3.今年度に完成させた動的に変化するデータベースを対象とした類似検索アルゴリズムを現実のアプリケーションへ適用し、その有用性を示す。どのようなアプリケーションが適切であるかを早期に選択する必要がある。
|
次年度使用額が生じた理由 |
3月に参加予定であった学会がオンライン化されたことや、動的に変化するデータベースに対する類似検索に関する研究成果が国際会議での成果発表に至らなかったために、未使用の予算が残った。現在、2020年度に開催される国際会議に投稿中であり、そこへの参加登録費としてこの次年度使用額を使用する。
|