音声対話システムを利用する際には、システムは誤認識を起こす。誤認識したまま対話を継続して対話が破綻しないようにするためには誤認識を回復することが必要となるが、そのために、一般には確認発話を用いる。しかしこれは、対話の発話(ターン)数を増加し、効率の悪い対話となる。 確認発話を行わない対話が破綻したり、最終的に誤った理解結果に至るのは、音声認識の結果の第一候補のみを信じて対話を進あるためである。本研究では、複数得られる認識候補をいかに有効に用い、またその結果生じる各ターンごとのユーザ発話の理解候補を複数持つ、「あいまいな」理解状態表現を表現しながら最終的な目的に到達するかが重要である。 今年度は、この複数の理解状態を、スロットフィリング型理解のグラフ構造で表現し、その木構造上での探索問題として対話を進める手法を考案した。各理解候補は音声認識結果の信頼度によってスコア付けされているのでBest-first型探索が用いられる。また、ユーザの発話が認識され、あらたな複数認識候補が得られると、それらとの組み合わせによって新たな理解候補が枝の展開という形で複数生成・更新される。 ユーザはシステム応答に応じた発話をするので、システムがいかに適切な応答をすることができるかは重要になる。そこで、現在の理解候補中からできるだけ正しいと考えられる候補に絞り込め(効率性)、かつ、その応答が対話履歴と照らした際にユーザにとって矛盾に感じる可能性が低い(無矛盾性)応答を選択する基準を用いている。これをヒューリスティックスとして用いることで、さらに探索問題として効率的で自然な対話ができることを示した。
|