研究概要 |
自然な発話を許す対話理解システムは,実時間で応答する機能や、環境(話者を含む)の違いや変動に対し強いことが要求される。 このような要求を実現するために,本研究ではシステム・アーキテクチャとしてマルチエージェント方式の採用を提案している。各エージェントはそれぞれ特有の機能を持たせた;音韻認識機能,抑揚からの発話文構造の推定機能、発話文の予測機能、語彙予測機能、パーザ機能などである。また、本システムの出力は、これらのエージェントの協調結果である。そのための協調処理法も提案を行った。 環境の変化に対応する手法として強化学習を導入し、その例として、音韻認識部にその機能を実現した。入力音声は当然連続音声であるので,連続DP法を利用した学習法を開発した。この効果を単独で評価するために、音韻認識部に対する擬似環境を作り、効果が大きいことを確認した。 抑揚を活用するために,音声の基本周波数と、発話長、ポーズを用いて、発話の文構造を木形式で準実時間で推定する手法を提案した。木構造は、隣接する句の間の結合の強さを表現している。 また、対話中の次発話を予測する手法として、確率的遷移表の値を発話ごとに修正してゆくものと、その経過を利用して学習し、次回以降の対話における予測性能を上げる方式を提案した。 マルチエージェントシステムをサーバ上に構築するためのソフトウェア技法も合わせて開発した。これらの新手法の組み合わせにより、実時間で安定な対話システムの実現の基礎を構築した。道案内システムを例題として、その効果を確認している。また、対話システムを応用するシステムとして、視覚障害者対応のWWW音声ブラウザなどの検討も進めた。
|