研究概要 |
対話的な映像メディアを実現するためには,映像取得から提示までを一貫して扱う知的システムを構築することが必要である.そのために,本年度は以下の項目について研究を行い,順調に成果が得られた. (1)対話的映像メディアのためのQAモデル 本研究の目的は,映像のように複数のモダリティを持つメディアをデータとして用いることでユーザの質問に適切な答を与えてくれる新たなメディアを創造することにある.従来から自然言語による知的ヘルプシステムや質問応答システムに関する研究は数多く報告されてきたが,マルチモーダルデータの扱いには特有の問題があり,それらの手法を単純に適用することはできない.そのため,我々は新しい枠組み「QUEVICO」を提案した.QUEVICOはマルチモーダルデータのインデキシングと編集を「質問と答」の観点から行うモデルであり,30種程度の質問に対して,複数のモダリティを有効に利用してユーザに答えることができる. (2)画像処理,動作認識を用いた映像インデキシング 対話的映像メディアが十分に機能するためには,十分にインデックスの付いた映像データが必要となる.そのため本研究では,撮影の時点から映像と共にその内容に関するインデックスを自動的に取得する映像取得システムを構築している.今年度は,作業中に出てくる物体や,それらの物体になされる操作を検出するために複数の画像センサを用いる手法を提案した.この手法では,物体に関する事前知識を用いることなしに,実時間でロバストな物体検出と追跡が可能である.また,話者の動作を認識し,物体に関する説明が与えられたことを検出することによって,物体の外観,位置,付加された注釈情報などを関連付けて映像へのインデキシングを行うことが可能である.
|