1.視線,音声情報からの会話における優位性推定 複数人からなるグループユーザに対応する会話エージェントシステムでは,ユーザ同士の会話の様子を自動認識することが重要である.本研究では,音声と視線による非言語情報からユーザ同士の会話における会話参加者の優位性を自動推定する方式を考案した.まずWizard-of-Oz手法を用いた会話エージェントと3人の被験者との会話収集実験を行い,音声とモーションキャプチャによる注視方向データを収集し,注視・相互注視情報と,発話時間や発話権取得についての音声情報から会話参加者の優位性の推定を行うための重回帰モデルを作成した.その結果重相関係数が0.85となり,会話における優位性の高い人物を特定するのに十分な精度が得られた.
2.複数人対応会話エージェントにおける受話者推定機構の構築 人とエージェントとの複数人会話において,エージェントが応答すべき時に的確に応答するには,ユーザの発話が誰に向けられているのかを判断する機能が不可欠である.本研究では,ユーザの音声情報と頭部方向情報を用いて受話者を推定する方式を考案した.音声情報・頭部方向情報と受話者との相関関係の分析を行った結果,ユーザはエージェントに対して話している時は,より高く,大きい声で,ゆっくりと話すことが分かった.また,もう一人のユーザが受話者である時は,33.5%の時間しか,受話者を見ていないことがわかった.これにより,ユーザは頻繁に受話者を見るが,頭部方向情報のみでは受話者を推定することが困難であることが分かった.これらの分析結果に基づき,音声情報と頭部方向情報を統合し,SVMによる受話者推定モデルを構築し,さらにリアルタイムで動作する受話者推定システムを構築し,評価実験を実施したところ,不正な音声入力を除いた場合には, 80%以上の分類精度が得られた.
|