研究概要 |
対話的な映像メディアを実現するためには,映像取得から提示までを一貫して扱う知的システムを構築することが必要である.そのため,3年間で以下の項目について研究を行い,順調に成果が得られた. (a)映像の自動撮影と自動インデキシングを統合的に行うことが可能であることを示し,対話型映像メディアの自動取得の可能性を示した.具体的には,作業中に出てくる物体や,それらの物体になされる操作を検出するために複数の画像センサを用いる手法を提案した. (b)料理番組などの放送映像に対して,それを対話的に利用するための自動インデキシング手法の提案をし,大規模な会話型コンテンツを取得するための可能性を示した. (c)質問に答えることのできる映像メディアを実現するためのプロトタイプの構築をし,ユーザの簡単な質問に対して答えとなるデータを検索しながら,種々の応答を行う手法「QUEVICO」を提案した.この新しい枠組みはマルチモーダルデータのインデキシングと編集を「質問と答」の観点から行うモデルであり,30種程度の質問に対して,複数のモダリティを有効に利用してユーザに答えることができる. (d)映像メディアのより柔軟な提示を行うための映像編集技術,映像要約技術の提案をし,その有効性を示した。具体的には,制約充足と組み合わせ最適化による編集モデルを提案し,会話シーンに対してその有効性を確かめた.また,映像は時間軸を持ったストリーム形のメディアであるため,冗長性が高く,一覧性が悪いことが問題となっている.この問題に対して,我々は,映像の構造を図化する新しい手法,ビデオアイコンダイアグラムを提案した.
|