音声言語において個人性が関わってくる範囲は極めて広いが、現実的な対話システム開発においてこれまで特にその扱いが不十分で重要度が高いのは対話における個人性である。個人性は対話相手にも影響を受けると考えられるため、実用を想定して機械相手の対話を本研究では扱った。地名入力タスクを想定したスロットフィリング型の実対話システムにより、被験者10名で収録した対話音声を分析した。特に機械がユーザ発話を誤認識して応答した場合に、その後の対話音声からその事実を検知し対話を円滑に進めることを目的とし、訂正発話の音響・韻律的な特徴の分析を行った。その結果として、特に一発話単位の基本周波数およびパワーの変化の統計量に有意な変化がみられることが分かった。訂正発話の検出法として、複数の音響・韻律特徴を用いた決定木による識別木を構築し評価実験を行ったところ、個人毎に構築した場合に高い検出性能が得られる話者が存在し、従来のDPマッチング法による性能にはやや及ばないが、音響・韻律特徴を用いる効果が高いことが示された。 対話音声の認識において言語モデルを考えるとき、発話単位=文とする定義は必ずしも明確ではない。また、対話相手(機械)と相互に素早く発話が繰り返される状況はこれまでほとんど考慮されていない。本研究では、まず対話音声認識の枠組みとして、従来の文より短い単位で言語知識を柔軟に制御する状況を想定し、XMLのマークアップ記述に基づく文法の記述を設計し実装した。既存の音声認識エンジンにおける汎用性を考え、XSLT(eXtensible Stylesheet Language Transformation)による記述変換の処理系を実装した。また、連続する断片的なユーザ発話に対する逐次的なシステム応答を可能とするため、ポーズ単位での認識出力の制御を行えるように音声認識エンジンSPOJUSの改良を実現した。
|