研究概要 |
ディジタルライブラリなどの分野では,ユーザが効率的にビデオデータベースを検索するために,あらかじめ内容に基づいた索引付けを行っておく必要がある.この索引付けで重要なことは,どのようにしてビデオデータを何らかの意味的まとまりを持った部分に分割するかということである.人間が逐一ビデオデータをチェックしながらこの分割を行えば,より確実ではあるが,多大な時間と手間を要するため,処理を自動化することが望ましい.本研究では,一般的なビデオから画像の色情報,時間情報,およびテキスト情報(クローズドキャプション)を抽出し,それらを統合的に用いて意味的にまとまった部分(場面)へ自動的に分割する手法について検討した. 一方,近年の3次元CGなどでは,人間にマーカを装着して複数カメラから得られるデータを基にして,スムーズな人間の動作を表現している.これをモーションデータと呼ぶ.本研究では,モーションキャプチャシステムEVa(Motion Analysis社)によって得られる大量のモーションデータを効率良く検索するために,人間の基本動作に着目した動作認識システムを開発した.また,従来の動作認識システムで問題となっている「動きの個人差」を正規化するために、モーションデータをマルチストリームとみなし、各ストリーム間の共起関係を依存構造グラフとして表現する手法について検討した.さらに,デジタルアーカイブのようにモーションデータが大量に蓄積されている場合,その内容によって人間の動作を組織化・構造化しておかなければ検索することさえ困難になるため,モーションデータの構造化,知的検索などを効率的に行えるようなデータモデルについて検討した.
|