研究概要 |
人間同士のインタラクションでは,表情変化における顔パーツ間の動きの微細な関係や,発話・ジェスチャーのテンポ,間のとり方といった時間的構造が,意図などを正確に相手に伝えるための情報として積極的に利用されている.一方で,これまでのインタフェースシステムでは,これら時間的構造の大部分を,変動成分・ノイズとして切り捨ててきた.そこで本研究では,複数のメディア信号に現れる時間的構造を扱うために,イベントの順序やテンポ・間といった主観的時間に基づく認識・生成モデルと.個々のイベントを同定可能な物理的時間に基づく認識・生成モデルを有機的に結んだ新たな計算モデルとして「ハイブリッド・ダイナミカル・システム」を構築した.このモデルを応用することで,人間の興味や意図を推定しながら行動・応答を行う情報システムを実現できると考えられる.本年度の成果は以下通りである. (1)意図的・自発的な笑いの表情映像から,顔のパーツ間における動きのタイミング構造の分析に基づいて両表情を判別するための枠組みを提案した. (2)漫才コーパスを作成し,ボケ役とツッコミ役における発話タイミングの関係を分析した. (3)ハイブリッド・ダイナミカル・システムの二段階学習法を提案した. 1と2の結果より,我々が日常のインタラクションで用いている,視覚的・聴覚的情報には,数10msecから数分まで,様々な時間スケールでの時間的構造・インタラクションパターンが存在し,これをプロトコルとして互いに意図や興味を伝達し合っていることが分かった.さらに,表情の時間的構造を詳細に記述する方法として,新たに「表情譜」という枠組みを示した.3のハイブリッド・ダイナミカル・システムの学習アルゴリズムは,これら時間的構造を,大量の信号から見つける機能を有するため,今後,人間にとって自然なインタラクションシステムを構築する上での基盤になると期待される.
|