本研究では、数千時間規模の大量の映像データから、利用者が効率的に知識を検索するために必要となる映像の自動構造化を目指している。このためには、高速・高精度なパターン認識技術をはじめ、意味内容に基づく映像間の関連づけが必要となる。本研究では特に映像中に繰り返し現れるほぼ同一(near duplicate)な区間に着目した自動構造化を目指す。 本年度は主に以下の項目について取り組んだ: 1)ニュース映像アーカイブを例とした同二映像区間の存在を手がかりとしたトピックの自動関連づけ 繰り返し出現する同一映像区間を含むトピック対に注目し、これまで提案してきたテキスト情報に基づくトピックスレッド構造解析手法に同一映像区間対の存在を加味した拡張を行った。 また、他の言語によるニュース映像との間の言語横断型検索や、正確な音声書き下しテキストがなく、音声認識技術に頼らなければならないような、テキストにより信頼性の高い対応付けが期待できない映像を対象とすることで、同一映像区間の存在という画像情報に基づく手がかりによる補助の効果を検証した。 2)大量の映像中の任意のほぼ同一(near duplicate)な映像区間対の高速検索 一般に、「ほぼ同一(near duplicate)な映像」とは、字幕の重畳などによる軽微な差違を除いて、基本的に画素単位で同一な映像を指す。この処理を実現するには全対全の照合が必要なため、対象とする映像長をnとすると、O(n^2)の計算量を要する。本研究では、特徴量の次元圧縮により照合の負荷を軽くした第1段階照合で同一映像区間の候補を大幅に絞り込み、そこで候補に挙がったもののみを第2段階照合で詳細に照合し直すことで、精度を損なうことなく高速な照合を実現する。また次元圧縮については、フレーム画像の主成分分析により空間的に圧縮を施したうえ、連続する複数フレームの圧縮特徴量を更に時間方向に圧縮する。このような時空間的な次元圧縮により、全対全照合の負荷を大幅に軽減する。 本年度は、既に取り組み始めている本手法の性能を評価しつつ、事前クラスタリングによる高速化手法について検討し、大幅な高速化が期待できる見通しを得た。
|