研究概要 |
近年,対話音声システムにおいて単に音声を伝達するだけでなく,ロボットや人間の姿を持つエージェントが情報を提供するインタフェースが増えている.人が音声対話を介してコミュニケーションを行う際,発話音声に伴う頭部動作や表情などの視覚的情報も話者の意図や感情などを伝達することが多く,対話の相互理解やインタラクションの自然さ,円滑さに影響する. 本提案では,対話コミュニケーションにおいて,発話音声とそれに伴う頭部動作や表情の視覚的情報との関連構造を提案し,言語情報と韻律・声質特徴からなる発話スタイルの組み合わせにより,談話機能や発話意図などを介して頭部動作や表情の視覚的情報と関連付ける構造の構築を目的としている. 昨年度は,自然対話におけるさまざまな発話スタイル及び頭部動作・表情のノンバーバル情報を含んだマルチモーダル(音声,EGG,モーションキャプチャ・データ)のデータベースを構築した. 本年度は,そのデータベースを用いて,さまざまな音響分析,発話に含まれる(言葉の意味が持つ)言語情報と発話スタイルによって伝達される意図や態度や感情などのパラ言語情報と,視覚的情報の頭部動作や表情との関連を調べた.音響分析に関しては,気息音を含む声質の音響特徴分析,および気息音がもたらすパラ言語情報に関して検証した.頭部動作に関しては,複数の話者のデータを解析することにより,対話相手との関係および興味の度合いなどによって、話者内でも頭部動作の頻度が変わり,韻律特徴にも著しい違いが観られた.また,分析結果を基に,発話に含まれる談話機能を用いて頭部動作を生成するモデルを提案し,ロボットの頭部を自動的に制御するシステムを構築・評価した.
|