研究概要 |
近年,メディアはマルチモーダル化してきており,対話音声システムにおいて単に音声を伝達するだけでなく,ロボットや人間の姿を持つエージェントが情報を提供するインタフェースが増えている.人が音声対話を介してコミュニケーションを行う際,発話音声に伴う頭部動作や表情などの視覚的情報も話者の意図や感情などを伝達することが多く,対話の相互理解やインタラクションの自然さ,円滑さに影響する. 本提案では,対話コミュニケーションにおいて,発話音声とそれに伴う頭部動作や表情の視覚的情報との関連構造を提案し,言語情報と韻律・声質特徴からなる発話スタイルの組み合わせにより,談話機能や発話意図などを介して頭部動作や表情の視覚的情報と関連付ける構造を構築し検証する. 本年度では,まず分析用のデーダとして,自然対話におけるさまざまな発話スタイル及び頭部動作・表情のノンバーバル情報を含んだマルチモーダル(音声,EGG,モーションキャプチャ・データ)のデータを収集した。収集したデータの同期,発話区間切り出し,書き起こし,および談話機能や発話意図・態度・感情のラベリングの作業を実施した.頭部と鼻と耳に貼り付けたマーカーを基に,SVD法などを用いて回転行列を求め,3次元の軸における回転角度により,頭部動作を表現した.得られた音声データにおいて,音響特徴や頭部動作に関連する話者の依存性を調べた.年齢や性別による違いは長時間に渡る平均的な特徴で表現可能であり,「驚き」「感心」などの心的態度や感情表現は比較的短い区間で特徴の変化が起きることが確認された.また,対話相手との関係および話題の明暗によって、話者内でも頭部動作や韻律特徴に著しい違いが観られた.
|