2018 Fiscal Year Research-status Report
Project/Area Number |
18K11311
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | データストリーム / 類似検索 |
Outline of Annual Research Achievements |
今年度は、時間に共に変化する集合を対象とする類似検索に関し、次の2種類の問題設定に取り組んだ。 (1)従来研究ではクエリ集合のみが時間と共に変化し、データベース内の集合は時間に依存しない問題設定を取り扱っていたが、本研究ではクエリ集合が固定でデータベース内の集合が時間と共に変化する問題を取り扱った。この問題設定では、データベース内の集合が変化するため、データベースを転置リストのような静的なインデックス構造を用いて管理することは困難である。そこで、インデックスに頼らずに、類似度の計算回数を削減することで類似検索を高速化する要素技術を実現した。類似度の上限値を軽量に推定し、その値が小さい場合には、類似集合である可能性がないので、類似度計算を省略するのが基本アイデアである。とくに、集合から消失するデータは既知であるという性質を利用し、類似度の上限値をより厳密に求め、類似度計算を省略する頻度を増やすことに成功した。 (2)クエリ集合のみが時間に依って変化する状況において、集合の要素が文字ラベルではなく、多次元データである問題を取り扱った。一般的には、集合は文字ラベルを要素として持つ。しかし、文字ラベルを要素とする集合では表現が困難な問題が現実には多く存在する。例えば、twitterにおいて、ユーザをtweetの集合により特徴付けしようとすると、個々のtweetを文字ラベルで表現するのは適切ではなく、位置情報を持つ単語ベクトルとして表現する方が自然である。このような問題設定において、類似度の上限値が小さい時に類似度計算を省略するアルゴリズムを考案した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
インデックス構造に頼らずに類似度計算を省略することで類似検索を高速化する要素技術を開発したが、その評価に関しては、クエリ集合のみが変化する問題設定において有効性を確認するに留まり、データベース内の集合が変化する問題設定への適用までは完了できなかった。これは解決困難な壁にぶつかったというよりは、私が代表者を務めるもう1つの科研の研究課題に時間をかけてしまったのが原因であり、研究時間のスケジューリングに関しては反省しなくてはいけない。
|
Strategy for Future Research Activity |
今年度は、まず、提案した要素技術をデータベース内の集合が変化する問題設定に適用し、その有効性を示すことを最優先課題とする。人工データに対して有効性を示すのは問題なく可能であると私は考えている。しかし、登録されたデータが時間と共に変化するような公開のデータセットはほぼ皆無であり、実データに対して有効性を示すのは簡単ではない。このため、研究成果を論文発表する際には、実データを基としたシミュレーションをやらざるを得ない。そして、シミュレーションシナリオをいかに現実に近づけられるかが、論文の評価を左右することになる。また、クエリ集合が多次元ベクトルを要素として持つという問題設定で、実データを用いた実験評価を行うには、twitterからのデータ収集が必要であり、データセット構築のコストが大きくなることが懸念される。以上のように、提案手法の実験評価には時間がかかることが想定される。年度冒頭から実験計画を詳細に検討し、実験やり直しの無駄を無くすことで、年度内に査読付きの論文発表を目指す。
|
Causes of Carryover |
提案した要素技術の実験評価が完了せず、2018年度中の国際会議やジャーナル論文での成果発表に至らなかったために、未使用の予算が残った。この次年度使用額は、2019年度に研究成果を発表するために使用する。
|
Research Products
(2 results)