研究概要 |
本研究では,視覚による人間の行動理解や追跡を柔軟に行うためのメカニズムを計算機上に構築することを目的としている.そのために,人間の発話,行動に柔軟に対応し,視覚によるセンシングのためのタイミングや注視点を動的に選択するための方法について研究を行った.ただし,一般的な広い範囲の状況を考えるのは,現在の段階では難しいため,本研究ではプレゼンテーション題材とした.プレゼンテーションでは,話者が明確な意図を持って物事を相手に説明するために,発話,行動に強い相互関係が現れ,比較的扱いやすい対象となるためである. 本年度は,(1)種々状況における人物行動と発話の蓄積(データベース化)と解析,(2)複数のカメラを用いて人間の動作を観測する際の注目要素選択,(3)注目部分を選択することによる人物動作の要約,の3つの点について重点的に研究を行った.具体的には,可動カメラを含む複数のカメラ,磁気位置センサを用い,種々の状況における画像,動作,音声を大量に記録し,人間による動作の解釈などを付加して蓄積した.これにより,種々の状況において人間が行う動作の動作の種類,数 また,発話などとの共起性を調べることが可能になった.本研究では実際に得られた結果を基に,動作と発話を用いた指示動作の検出を行い,良好な認識結果が得られることが分かった.また,動作と発話の共起性を用いて人間を観測する際のタイミング,注視点などを選ぶ方法について検討し,プレゼンテーション映像の生成,編集,要約が行えることを確認した.
|