2015 Fiscal Year Research-status Report
一般化ピボットでのデータ構造化技術による類似検索の高速化
Project/Area Number |
26330138
|
Research Institution | University of Shizuoka |
Principal Investigator |
池田 哲夫 静岡県立大学, 経営情報学部, 教授 (60363727)
|
Co-Investigator(Kenkyū-buntansha) |
武藤 伸明 静岡県立大学, 経営情報学部, 教授 (40275102)
斉藤 和巳 静岡県立大学, 経営情報学部, 教授 (80379544)
大久保 誠也 静岡県立大学, 経営情報学部, 助教 (90422576)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 情報検索 / 類似検索 / クラスタリング |
Outline of Annual Research Achievements |
前年度に提案した、L1距離を用いた類似検索技法の展開を中心に研究を進めた 1. 検索クエリにはユーザの嗜好などによって何らかの分布が存在すると仮定し,その分布を学習データとしてピボットを構築する方法を考案した。具体的には、新聞記事データを検索対象とし、記事のジャンルをクエリ分布と設定しピボットを構築する方法を提案し、性能向上に有効である見通しを得た[JSAI]。さらにこの方法をベースにして、ピボットとして、(a)あるクラスとその他のクラスのオブジェクトを効率的に枝刈りするためのピボットと、(b)あるクラス内のオブジェクトを効率的に枝刈りするためのピボットの2種類を設ける拡張を行い、性能向上に有効であることを確認した[SIG-DBS]。なお、提案した方式がL1距離の場合には有効であるがL2距離においては相対的に有効性が小さいことの原因分析も行い報告した[FIT]。 2.大量データの活用の観点からは類似検索と並んで重要な技術にクラスタリング技術がある。前処理でピボットを構築してからクラスタ生成を行う方法を提案した[SDM]。クラスタ生成の初期段階(クラスタの重心の入れ替えが頻繁に発生する段階)において、生成性能向上に寄与することを確認した。論文は、データマイニング分野のトップカンファレンスの一つであるSDM(MicrosoftのTop conferences in data miningでは、41の関連国際会議中の5位)に採択され高い評価を受けたと考える。 3. 前年度に提案した、データ可視化結果へのアノテーション自動付与方法を、大量写真データに適用し有効性を確認した[STI]。また、大量画像データに関して、1で述べたピボット構築法で求めた2個のピボットからの距離を元に2次元平面に可視化する方法を提案し有効性を確認した[IPSJ]。 いずれの項目も類似検索および関連する大量データの活用技術に関するものであり、意義の大きい成果と考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は3年計画の2年目である。L1距離への埋め込みを用いる手法が予想以上に有用であることが判明し、実績概要でも説明したように、本年度はL1距離への埋め込みを用いる手法に関する研究を精力的に進め、(1)クエリ分布を考慮したピボット構築法の有用性、(2)ピボット構築法のクラスタリング生成への適用での有用性、(3)大量データの可視化での有用性を明らかにし、外部発表を行った。特に、ピボット構築法のクラスタリング生成への適用での有用性に関しては、論文が、データマイニング分野のトップカンファレンスの一つであるSDM(MicrosoftのTop conferences in data miningでは、41の関連国際会議中の5位)で採択され高い評価を受けたと考える。 いずれの成果も類似検索および関連する大量データの活用技術に関する成果であり、高性能な類似検索技法の確立に向け、おおむね順調な進捗であると考える。
|
Strategy for Future Research Activity |
平成27年度に引き続き、L1距離への埋め込みを用いるピボット構築法の展開を図る。具体的には、(1)バランス木の各ノードにピボットとオブジェクト集合を対応させるピボット構築法、詳細には、各ノードの一段下位の2ノードを作成する際に、まず2ノードに対応するピボットp1,p2を生成し、次いでp1,p2からの距離順で上位ノードのオブジェクト集合に含まれるオブジェクトをランク付けし、そのランク順にもとづきオブジェクト集合を2分割して2ノードに割り当てることを特徴とする、ピボット構築方法に関して予備実験を行い、性能向上に有望である見通しを得ている。よってこの方法の展開を図る。また、L1距離以外にレーベンシュタイン距離(編集距離)にも適用可能性があることからレーベンシュタイン距離への適用も試みる。(2)クラスタリングへの適用に関しては、同心円構造を用いてピボットを構築することにより、クラスタ生成性能向上に寄与する可能性があることから、この技術の開発も試みる。(3)一昨年度に 提案した可視化結果へのアノテーションを自動付与する手法を、多様なマルチメディアデータに適用して有用性を評価する。
|
Causes of Carryover |
次年度使用額(67416円)が生じた理由は、年度末に学会・研究会等へ急な出張が発生する場合に備えて、旅費を意識的に余したためである。
|
Expenditure Plan for Carryover Budget |
次年度使用額(800000円)を併せての、次年度の研究費の使用計画は、消耗品費307416円、旅費560千円(国内学会発表310千円、国際会議発表250千円)、の合計813288円である。
|