研究概要 |
本年度は映像検索手法のスケーラビリティを向上させる研究を行った。具体的には、大規模データを効率的に検索するために、開発手法の高速化を行った。特に、当初予定していたマルチコアに頼った並列処理化ではなく、より根本的な解決策として、シングルコア上で精度を一切落とすことなく高速に検索可能な手法を開発した。 前年度までに、高精度な映像検索を実現するために、以下の2点が重要であることが分かっていた。まず、物体形状や向き、カメラ位置、照明条件といった変動要因によって、見た目が多様に異なってくる映像を意味的に検索するためには、大量のサンプル映像を分析して検索モデルを構築する必要がある。さらに、特定の意味内容が映し出される位置や時間(フレーム)がまちまちであるという不確定性を吸収するためには、あらゆる局所領域を分析して、映像の特性を表す特徴量を抽出する必要がある。上記の2点を満たすために、行列演算に基づいて、大量の映像間の類似度を一括して計算して高速に検索モデルを学習・テストする手法、及び大量の局所領域に対する確率密度を高速に計算して徴量を抽出する手法を開発した。これにより、従来と比較して、検索モデルの学習・テストでは約10~37倍、特徴量の抽出では約5~7倍の高速化に成功した。なお、本高速化手法のプロトタイプは、国際競争型ワークショップ (TRECVID 2012)にて世界最高精度を達成した物体認識システムでも用いられている。 また、映像例示型検索システムの構築に関しては、当初予定した合計838本の映像(約240GB)よりも、更に大規模な合計27,033本(305GB)映像を対象としたシステムを開発した。特に、単一ショット中の意味内容だけでなく、複数のショットにわたって表現されるイベントも柔軟に検索可能なシステムを開発した。 以上の内容に関して、学術論文1本(査読有)、学会発表2件(査読有1件,無1件)という研究成果が得られた。
|