本研究は、映像をデータベース化する際に「何が写っているか」「何を行おうとしているか」などの高次情報を自動抽出し、原データと対応づけてデータベースに格納するシステム作成を目指している。本研究ではまず、2台のVGAカメラによって得られたステレオ映像(2系統のフレーム列)から、あらかじめ指定した物体上の特徴点(たとえば作業者の帽子、目、手袋など)を検出し、かつ左右フレームの視差から空間座標を計算することによって動きの素データを抽出した。さらに、あらかじめわかっている物体の3次元形状(たとえば顔)と上記の特徴点の時系列および原映像(フレーム列)とのあいだでマッチングをとり、最終的には人体各部、道具、背景中の物体などが3次元空間中でどの位置でどのような運動をしているかのモデル化を目指した。実際にはサッカーの試合を複数台のカメラから取り込み、各プレーヤーの動作意図との関わり等を所定のテンプレートから類推することを試みた。そのため、まず競技場全体の中での各プレーヤーの3次元位置を画像間差分を用いて検出し、そのうちから特に重要と思われる幾人かのプレーヤーについては近視点映像を利用した姿勢解析を行い、それらの間の位置・領域変化を時間的にモデル化して、全体としてどのような意図の協調プレーが行われているかを推測した。 以上から原情報のビデオ映像から意味情報を抽出することの具体的な手法を示し、かつスキーマ化してデータベースに蓄積することにより、高度の再検索の可能性を示すことができた。
|