対話音声の認識に重要な役割を果たす、次発話を予測するための基本的なメカニズムの開発を行った。 1.質問者と回答者の役割を想定した模擬対話データを基にして、音声対話の特徴を調べた。その結果、意味的なまとまり、および発話対の二種類の構造が一般に対話に見られることがわかった。 2.対話例を解析した結果に基づき、次発話との関連性に注目しながら二種類の対話構造をモデル化した。まず、意味的なまとまりを捉えるためのモデルとして話題遷移モデル(TPN)を提案した。このモデルは関連話題をパケットにまとめ、さらにそれをネットワーク上に接続したものである。次に、発話対を一つのプランとして捉え、発話対の種類ごとに発話のパターンを分類整理し、話題に依存する発話の構成要素を明らかにした。対話構造のモデル化に当たっては、汎用性の高い対話管理手法を実現するために、計算機側のシステム(問題解決器)に依存した知識とそうでない汎用的な知識に分離することによって、領域に依存しないような対話構造のモデル化を行なった。 3.対話音声理解に対話に関する知識を利用するための手段として、対話構造のモデルに基づいた発話の予測手法を検討した。発話における話題を話題遷移モデルに基づいて決定し、さらに発話対に基づいた発話のパターンを話題によって具体化する。曖昧性を含んだ音声認識結果として分節ラティスを想定し、「案内」をタスクとした対話例に関して、本手法の有効性を検証した。
|