2018 Fiscal Year Research-status Report

時間と共に変化する集合を対象とした類似検索

Research Project

Project/Area Number	18K11311
Research Institution	The University of Electro-Communications
Principal Investigator	古賀久志電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	データストリーム / 類似検索
Outline of Annual Research Achievements	今年度は、時間に共に変化する集合を対象とする類似検索に関し、次の2種類の問題設定に取り組んだ。 (1)従来研究ではクエリ集合のみが時間と共に変化し、データベース内の集合は時間に依存しない問題設定を取り扱っていたが、本研究ではクエリ集合が固定でデータベース内の集合が時間と共に変化する問題を取り扱った。この問題設定では、データベース内の集合が変化するため、データベースを転置リストのような静的なインデックス構造を用いて管理することは困難である。そこで、インデックスに頼らずに、類似度の計算回数を削減することで類似検索を高速化する要素技術を実現した。類似度の上限値を軽量に推定し、その値が小さい場合には、類似集合である可能性がないので、類似度計算を省略するのが基本アイデアである。とくに、集合から消失するデータは既知であるという性質を利用し、類似度の上限値をより厳密に求め、類似度計算を省略する頻度を増やすことに成功した。 (2)クエリ集合のみが時間に依って変化する状況において、集合の要素が文字ラベルではなく、多次元データである問題を取り扱った。一般的には、集合は文字ラベルを要素として持つ。しかし、文字ラベルを要素とする集合では表現が困難な問題が現実には多く存在する。例えば、twitterにおいて、ユーザをtweetの集合により特徴付けしようとすると、個々のtweetを文字ラベルで表現するのは適切ではなく、位置情報を持つ単語ベクトルとして表現する方が自然である。このような問題設定において、類似度の上限値が小さい時に類似度計算を省略するアルゴリズムを考案した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason インデックス構造に頼らずに類似度計算を省略することで類似検索を高速化する要素技術を開発したが、その評価に関しては、クエリ集合のみが変化する問題設定において有効性を確認するに留まり、データベース内の集合が変化する問題設定への適用までは完了できなかった。これは解決困難な壁にぶつかったというよりは、私が代表者を務めるもう１つの科研の研究課題に時間をかけてしまったのが原因であり、研究時間のスケジューリングに関しては反省しなくてはいけない。
Strategy for Future Research Activity	今年度は、まず、提案した要素技術をデータベース内の集合が変化する問題設定に適用し、その有効性を示すことを最優先課題とする。人工データに対して有効性を示すのは問題なく可能であると私は考えている。しかし、登録されたデータが時間と共に変化するような公開のデータセットはほぼ皆無であり、実データに対して有効性を示すのは簡単ではない。このため、研究成果を論文発表する際には、実データを基としたシミュレーションをやらざるを得ない。そして、シミュレーションシナリオをいかに現実に近づけられるかが、論文の評価を左右することになる。また、クエリ集合が多次元ベクトルを要素として持つという問題設定で、実データを用いた実験評価を行うには、twitterからのデータ収集が必要であり、データセット構築のコストが大きくなることが懸念される。以上のように、提案手法の実験評価には時間がかかることが想定される。年度冒頭から実験計画を詳細に検討し、実験やり直しの無駄を無くすことで、年度内に査読付きの論文発表を目指す。
Causes of Carryover	提案した要素技術の実験評価が完了せず、2018年度中の国際会議やジャーナル論文での成果発表に至らなかったために、未使用の予算が残った。この次年度使用額は、2019年度に研究成果を発表するために使用する。

Research Products
(2 results)

All 2018

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

[Journal Article] Extended Min-Hash Focusing on Intersection Cardinality2018
- Author(s)
  Hisashi Koga, Satoshi Suzuki, Taiki Itabashi, Gibran Fuentes Pineda, Takahisa Toda
- Journal Title
  
  Springer LNCS, Proc. 19th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL’2018)
  
  Volume: 11314 Pages: 17～26
- DOI
  https://doi.org/10.1007/978-3-030-03493-1_3
- Peer Reviewed
[Presentation] 集合間類似度を用いたストリームデータのtop-k類似検索における枝刈アルゴリズムの改善2018
- Author(s)
  野口大樹，古賀久志，戸田貴久
- Organizer
  第17回情報科学技術フォーラム(FIT2018)

2018 Fiscal Year Research-status Report

時間と共に変化する集合を対象とした類似検索

Principal Investigator

古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Extended Min-Hash Focusing on Intersection Cardinality2018

Author(s)

Journal Title

DOI

[Presentation] 集合間類似度を用いたストリームデータのtop-k類似検索における枝刈アルゴリズムの改善2018

Author(s)

Organizer

古賀久志電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)