研究概要 |
本年度は,構築した音声認識システムを実際の音声対話システムに統合した.音声対話システム自体の構成も見直し,よりスムーズなターンテイキングが可能な対話制御法を考案した.具体的には,音声対話システムがその発話を期待されているかどうかと,自らが発話をしたいかどうかを,ユーザの発話が入力されれる度に計算し,その値の大小によってユーザの発話に割り込むかどうかをリアルタイムに決定するという手法である.発話を期待されているかどうかは期待度として定義し,ユーザの発話断片が入力されるごとに,その終末区間の韻律情報(具体的には基本周波数とパワーの時間概形)と,音声認識結果の複数候補とその音響的尤度を用いて確率的に計算する。また,発話をしたいかどうかは意欲度として定義し,システムの発話がどれだけ緊急を要するかを強・中・弱の三段階で表現することとした.緊急を要するかどうかとは,例えば何かしらの情報検索を,ユーザが与えた条件を元に行うタスクの場合,条件が増えすぎると検索結果が無くなることがある.この時,それ以上ユーザが検索条件を与え続けるのは無駄になるので,ユーザが発話を続けようとしていても,その条件では見つからない旨をいち早く伝えることが重要となる.この場合緊急を要すると判断される.これらを統合した音声対話システムを実現することにより,従来にない,スムーズなターンテイキングを行うことができる会話ロボットを構築することができた.
|