2015 Fiscal Year Research-status Report
直積量子化の大幅な高速化と安定化による超高性能最近傍探索
Project/Area Number |
15K12025
|
Research Institution | The University of Tokyo |
Principal Investigator |
相澤 清晴 東京大学, 情報理工学(系)研究科, 教授 (20192453)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | 直積量子化 / 大規模画像検索 / 検索効率 / メモリ効率 |
Outline of Annual Research Achievements |
大規模画像に対する高速最近傍探索技術の中で最高性能を誇る技術の一つが直積量子化(PQ)である。この直積量子化に対して、飛躍的に計算効率、メモリ効率を高めることを目的としている。具体的には、以下の研究を進めた。 (1)複数のクラスタ中心ベクトルの組み合わせによる密な空間分割による効率のよい最近傍探索: 直積量子化では、事前に空間分割を行い、複数のクラスタを作る。クラスタ中心点との距離を計算することで、特徴ベクトルを一番近いクラスタに割り当て、特徴量のインデクシングを行う。大量の高次元特徴量ベクトルに対する最近傍探索のためには、大量のクラスタを持つ密な空間分割が必要である。しかし,空間分割の処理時間はクラスタ数に比例するため、大量のクラスタを生成するには,長時間が必要となる。本提案では、特徴量ベクトルの複数近傍のクラスタ中心点を用いることで、大量のクラスタを生成する手法を提案した。この密な空間分割により、最近傍探索の効率を向上した。既存のIVFADCに比して、同一のクラスタ中心数でも、分割密度を上げることができ、検索時間を半分にすることができることを示した。 (2)PQTable (ハッシュテーブルを用いた直積量子化の効率化):PQコード自身を利用したハッシュテーブルであるPQTableを提案した。クエリに対するデータエントリが空の場合に対応するために、近傍候補の生成法を提案し、大きな次元数に対応するため、テーブルの分割・統合法を提案した。PQTableを用いることで、線形探索PQと全く同一の検索結果を導くことができるとともに、高速であり、10億個の128次元データを有するデータセットに対して、通常のPQに比して、2桁から5桁倍高速に動作することを明らかとした。なお,転置インデックスを用いた従来の検索手法等と比べて、提案手法では、種々のパラメータの人手による調整が不要である。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
直積量子化に対しての高効率な速度、メモリ消費による当初の目標は、当初の予想を上回る状況で実現できた。研究成果は、コンピュータビジョンのトップコンファレンスであるIEEE ICCV, 画像処理の最大の会議であるIEEE ICIPにて論文は採択され、発表した。
|
Strategy for Future Research Activity |
PQの高効率化については、当初の期待以上の進展が得られたため、さらに新たに二つの課題も検討している。 (1)クラスタ中心を求めるkmeansアルゴリズムのロバスト推定:長らくスタンダードとして用いられてきたkmeansアルゴリズムに関して、ロバスト最適化の観点からの検討を行う。 (2)PQコード空間でのデータ処理:データべ-ス内のPQコード表現されたデータに対しての演算処理をデコードすることなく進める処理について検討する。
|
Causes of Carryover |
研究計画は順調に進み,研究計画全体が効率よく動いたため.
|
Expenditure Plan for Carryover Budget |
順調に進んだ研究にあわせて,さらに設定した一段進んだ処理課題に関して支出する.
|
Research Products
(5 results)