研究概要 |
本研究では,ユーザや状況に応じた柔軟な音声対話システムの実現を目的としている.このためには,音声対話におけるユーザや状況(文脈)のモデルが必須である.平成16年度は,ユーザのモデル化や感情の判別を,音声対話における言語的内容以外の特徴(発話間間隔など)を利用して行い,それらの結果を論文としてまとめた.さらに,データベース検索タスクにおいて対話中の文脈を定義し,音声認識誤りを選別する手法を開発した.またユーザ発話中の確認対象となるべき部分を自動的に取り出し,適切に確認を行う方法についても研究を行った, (1)発話問間隔などの特徴を用いたユーザのモデル化 発話間間隔(プロンプトから応答までの時間)やバージイン(システム発話に対するユーザの割り込み)の有無など,音声対話システム特有の特徴を捉えて決定木学習を行うことにより,ユーザの習熟度や性急度をモデル化した.このユーザモデルにより,使い方を知らない一般のユーザに対しても,より短い時間でタスクを達成できることを評価実験により示した. (2)システムに対するユーザの感情の判別 発話の韻律的特徴のみだけでなく,発話間間隔をともに利用してユーザ感情を検出した.従来のように音声情報のみを用いて感情を抽出するのではなく,対話という状況での特徴を生かすことで,より高い精度を得た. (3)文脈情報を用いた音声認識誤りの選別 対話における文脈を,データベース検索タスクという一般的なタスクで成り立つモデルで表現した.このモデル上で得られる特徴を用いて決定木学習を行い,音声認識誤りの棄却や断片発話の対話行為の推定を行った. (4)自然発話中の確認対象箇所の自動検出 自由な発話による音声対話システムでは,確認の対象となる単語も自明ではない.ここでは検索対象のテキストとの整合性(検索整合度)を定義することで,発話中の確認すべき語を発見する手法を開発した.
|