研究概要 |
自由で明瞭な話し言葉の音声認識のための,頑健かつ高精度な大語彙連続音声認識の研究を行った.最終年度の研究の具体的内容は以下の通りである. 1.記述文法と統計言語モデルを統合した頑健な音声認識アルゴリズムの研究 音声認識の言語モデルにおいて,コーパスから出現頻度を学習する統計的言語モデル(N-gram)は,確率に基づく柔軟な認識が可能だが,タスク固有の単語(例:商品検索システムにおける商品名)などの認識が難しい.逆に,発声文パターンをトップダウンに記述する小規模な記述文法はタスク内において高精度であるが,様々なユーザの発話の変動を考慮することが困難である.これに対して,N-gramにおいて文法を併用し,文法上で接続しうる単語のN-gram接続確率を補正する言語モデル統合手法を提案した.評価実験の結果,N-gramのみの場合の80%から88%へ認識精度を改善できた. 2.音声認識アルゴリズムの改善 研究担当者が開発している汎用大語彙連続音声認識エンジンJuliusにおいて,(a)音響尤度計算量の削減,(b)話し言葉認識のマルチパス音響モデルの提案,および(c)対話システムのための認識文法の動的切り替え機構の考案,を行った.これにより,話し言葉をより高精度に認識すると共に,ユーザの状態ごとに言語制約を切り換えるより緻密な音声対話インタフェースを構築することができる.この成果は一般に無償公開されており,誰でもプログラムが入手可能である. 3.音声対話システムの構築とデータ収集・評価 音声認識エンジンJuliusを用いた音声対話システムを構築し,ユーザの実発話データの収集と評価を行った.エージェントを用いたWeb検索システム,および生駒市コミュニティセンターの音声情報案内システムを構築し,データの収集と性能の評価を行った.コミュニティセンターでは26000発話以上のユーザ発話を収録した.また音声切り出しについて検討を行った.
|