研究概要 |
本研究は,視線や頭部動作など複数の非言語情報を統合して,多人数での会話の様子を推定する方式を提案することを目的としている. (1)多人数会話における優位性と非言語行動の関連性の分析 前年度収集した会話エージェントと3人の被験者とのWizard-of-Ozによる対話コーパスに対して,ビデオと音声のデータを用いて,発話区間,発話者,発話の受け手のラベル付けを行った.また,モーションキャプチャからの頭部の位置と回転角度の情報を取得し,決定木学習によって各被験者が誰を注視しているかの推定をおこなった.その結果,90%程度の分類精度が得られたため,残りのコーパスについては,注視対象(誰が誰を見ているか)を自動でラベリングした.次に,ユーザ間のインタラクションの様子から,中心的な会話参加者(会話における優位性順位)の推定をおこなうために,自動アノテーションされた注視行動を分析した結果,ターンの譲渡や相互注視が会話の参与役割や優位性順位に大きく関わっていることが分かった. (2)複数人ユーザ対応型会話エージェントにおける受話者推定機構の開発 ユーザとのグループ会話が可能な会話エージェントを実現するには,多人数で会話が交わされる中,会話エージェントがいつ応答すべきかを適切に決定する必要がある.そのためには,ユーザの発話が誰に向けられているのかを判断することが不可欠である.そこで,韻律情報として,ピッチ(FO),パワー,話速に着目し,これらと顔向きの情報を組み合わせることにより,発話がエージェントに向けられているのか,あるいは他のユーザに向けられているのかを判別する方式を確立した,その結果,F-measureは,受話者がエージェントの場合は0.807,ユーザの場合は0.752であり,全体の分類精度は78.3%となり,システム実装に向けて十分な精度が得られた.
|