本研究は、対話音声中の言語的・非言語的情報を有効に利用することにより円滑で頑健な音声対話システムを実現することを目的として着手され、最終的に以下の成果を得た。 1 対話音声中の言語的・非言語的パターンの中から対話が円滑に行われるために重要な特徴を見出す手法を確立した。これは次のように細分される。 (1)superwordモデルと名付けた対話音声のための新しい言語モデルを開発し、これにより円滑な対話の実現に寄与する表現が自動獲得でき、音声認識の高精度化が見込めるようになった。また、このモデルを対話制御アルゴリズムに応用し、システムが適切なタイミングで応答するための対話のキューを自動獲得できることを明らかにした。 (2)非言語情報の自動獲得法の一環として、隠れマルコフ網に基づく環境音のモデル化法を考案し、自己組織化的な学習手法によって環境音の構造を獲得できることを明らかにした。 2 単一化文法に基づく発話単位の部分解析法を考案し、ユーザにとって負担の少ない自発的表現の多くを少数の文法規則でカバーできることを確認した。 以上の成果により、音声対話プロセスの一般的原則に関連する言語的・非言語的情報をコーパスからの自動学習という統一的な枠組みで扱うことができるようになり、タスクに依存しない普遍的な対話システム実現のための方法論を具体化することができた。これにより、当初の研究目的を達成することができたと言える。
|