• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

時間と共に変化する集合を対象とした類似検索

Research Project

Project/Area Number 18K11311
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 60080:Database-related
Research InstitutionThe University of Electro-Communications

Principal Investigator

古賀 久志  電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

Project Period (FY) 2018-04-01 – 2021-03-31
Project Status Granted (Fiscal Year 2018)
Budget Amount *help
¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2020: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2018: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywordsデータストリーム / 類似検索 / 集合 / ストリームデータ
Outline of Annual Research Achievements

今年度は、時間に共に変化する集合を対象とする類似検索に関し、次の2種類の問題設定に取り組んだ。
(1)従来研究ではクエリ集合のみが時間と共に変化し、データベース内の集合は時間に依存しない問題設定を取り扱っていたが、本研究ではクエリ集合が固定でデータベース内の集合が時間と共に変化する問題を取り扱った。この問題設定では、データベース内の集合が変化するため、データベースを転置リストのような静的なインデックス構造を用いて管理することは困難である。そこで、インデックスに頼らずに、類似度の計算回数を削減することで類似検索を高速化する要素技術を実現した。類似度の上限値を軽量に推定し、その値が小さい場合には、類似集合である可能性がないので、類似度計算を省略するのが基本アイデアである。とくに、集合から消失するデータは既知であるという性質を利用し、類似度の上限値をより厳密に求め、類似度計算を省略する頻度を増やすことに成功した。
(2)クエリ集合のみが時間に依って変化する状況において、集合の要素が文字ラベルではなく、多次元データである問題を取り扱った。一般的には、集合は文字ラベルを要素として持つ。しかし、文字ラベルを要素とする集合では表現が困難な問題が現実には多く存在する。例えば、twitterにおいて、ユーザをtweetの集合により特徴付けしようとすると、個々のtweetを文字ラベルで表現するのは適切ではなく、位置情報を持つ単語ベクトルとして表現する方が自然である。このような問題設定において、類似度の上限値が小さい時に類似度計算を省略するアルゴリズムを考案した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

インデックス構造に頼らずに類似度計算を省略することで類似検索を高速化する要素技術を開発したが、その評価に関しては、クエリ集合のみが変化する問題設定において有効性を確認するに留まり、データベース内の集合が変化する問題設定への適用までは完了できなかった。これは解決困難な壁にぶつかったというよりは、私が代表者を務めるもう1つの科研の研究課題に時間をかけてしまったのが原因であり、研究時間のスケジューリングに関しては反省しなくてはいけない。

Strategy for Future Research Activity

今年度は、まず、提案した要素技術をデータベース内の集合が変化する問題設定に適用し、その有効性を示すことを最優先課題とする。人工データに対して有効性を示すのは問題なく可能であると私は考えている。しかし、登録されたデータが時間と共に変化するような公開のデータセットはほぼ皆無であり、実データに対して有効性を示すのは簡単ではない。このため、研究成果を論文発表する際には、実データを基としたシミュレーションをやらざるを得ない。そして、シミュレーションシナリオをいかに現実に近づけられるかが、論文の評価を左右することになる。また、クエリ集合が多次元ベクトルを要素として持つという問題設定で、実データを用いた実験評価を行うには、twitterからのデータ収集が必要であり、データセット構築のコストが大きくなることが懸念される。以上のように、提案手法の実験評価には時間がかかることが想定される。年度冒頭から実験計画を詳細に検討し、実験やり直しの無駄を無くすことで、年度内に査読付きの論文発表を目指す。

Report

(1 results)
  • 2018 Research-status Report

Research Products

(2 results)

All 2018

All Journal Article Presentation

  • [Journal Article] Extended Min-Hash Focusing on Intersection Cardinality2018

    • Author(s)
      Hisashi Koga, Satoshi Suzuki, Taiki Itabashi, Gibran Fuentes Pineda, Takahisa Toda
    • Journal Title

      Springer LNCS, Proc. 19th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL’2018)

      Volume: 11314 Pages: 17-26

    • DOI

      10.1007/978-3-030-03493-1_3

    • Related Report
      2018 Research-status Report
    • Peer Reviewed
  • [Presentation] 集合間類似度を用いたストリームデータのtop-k類似検索における枝刈アルゴリズムの改善2018

    • Author(s)
      野口大樹,古賀久志,戸田貴久
    • Organizer
      第17回情報科学技術フォーラム(FIT2018)
    • Related Report
      2018 Research-status Report

URL: 

Published: 2018-04-23   Modified: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi