本研究は、音響モデル・言語モデル・意味解析規則・対話戦略・ユーザモデル・文生成など、音声対話システムにおける様々な知識源をユーザに適応させる手法の開発を目的として行った。本年度は各モジュールでカスタマイズ可能な音声対話システムのフレームワークを実装し、音響・言語モデルのログからの学習を実現した。また、あるレベルの学習結果を他のレベルの学習に利用する方式の検討を行った。 1. 学習可能なフレームワークに関しては、情報処理学会試行標準ワーキンググループの提案するアーキテクチャに基づいて実装を行った。 2. 各モジュールでの学習機能の実現については、以下のとおりである。 (1)音響モデル:対話の進行に伴って収集される音声ログを適応用データとして、隠れマルコフモデル構築ツールキットHTKを用いて、MLLRによる話者適応を行い、認識率の向上を確認した。 (2)言語モデル:新聞記事モデルから生成したコーパスと、認識結果ログ(文法を用いたものとディクテーションを用いたものの両方)を重み付きで結合したものから言語モデルを学習することによって、認識率が向上することを確認した。 3. 他のレベルの情報の利用法については、意味解析にオントロジーを用いた場合に、その出現頻度に応じて言語モデルのパラメータを変化させる方式や、対話処理におけるユーザに適応した主導権の選択に応じて、出現するユーザ発話に適した意味解析規則・言語モデルのチューニングについて、その実現方法を示した。
|