研究概要 |
本年度は,プレゼンテーション映像から,視覚的イベント,及び言語情報を抽出し,それらを構造化する方法について研究を行なった。具体的には,以下の課題について研究を行ない,下記のような結果を得た。 1.プレゼンテーションにおける話者の身振り手振り動作を計測し,発話内容と共に記録するシステムを作成した。そのために,位置センサ(本補助金で備品として購入)から得られる位置情報をワークステーションに取り込み,体の各部の位置及び画像上での予想位置を実時間で得るシステムを構築した。同時に、発話された音声を記録し,発話者の動作と時間的に関係づけて記録することを行なった。 2.話者の動き計測の方法としては,位置センサを用いる方法だけでは不十分である。そのため,動画像処理によって話者の動きを認識する方法について研究を行なった。具体的には,複数台のカメラで話者の動きを撮影し,顔,手,腕,指示棒などによる指示,手,腕などによる形状表現,全身によるジェスチャ等を抽出する。今年度は,複数台のカメラによる撮影システムの構築と,データ収集を行なった。また,手,腕,指示棒等の抽出に関する基礎的検討を行ない,手の抽出に関して実際の抽出プログラムを作成した。 3.コマーシャル映像の表現技法を解析し,その時間的構造化を行なうための研究を行なった。まず,コマーシャル映像を自動的に短い映像の単位(カット)に分割する方法を開発し,従来の方法よりも良好な結果が得られることを確認した。さらに,各々のカットがどのような意味を持ち,また,全体がどのように構成されているかについて詳細に調査し,コマーシャル映像のモデル化を行なった。また,このモデルに従って実際の映像を自動的に構造化する方法ついて基礎的な検討を行ない,この一部分について計算機上にプログラムとして実装した。
|