自由発話音声の認識処理を、音響モデル・語彙・言語モデル等の制約を統合したグラフ上の探索問題に定式化し、認識性能を下げないで計算量を大幅に低減することを目指して、認識アルゴリズムの要素技術である音響モデル、単語マッチング、言語モデルの高度化に重点をおいて研究を進めた. 1.音響モデルの精密化と話者適応 音素環境依存の音響モデルHM-Netを、音素決定木に基づく逐次状態分割法で自動生成する手法DT-SSSを提案した.DT-SSSにより、高精度かつあらゆる未知コンテキストも表現可能なHM-Netが生成できるようになり、時間方向の状態分割や適切な初期モデルが、生成されるHM-Netの性能改善に有効であることを確認した.また、MAP推定法によるHM-Netの話者適応の有効性を検討した. 2.単語マッチングの高速化と尤度正規化 簡略な音響モデルと最適音素系列を利用する単語予備選択法を検討した.15000語の単語認識実験で、語彙の1%を候補として予備選択したとき、その中に正解単語が99%以上の確率で含まれて、単語マッチングの計算量は全数探索の4.1%に低減できることを確認した.また、連続音声中の単語区間の尤度を正規化するために、音節連接HMMの上位N個の平均スコアの基づく正規化法を提案し、連続音声認識におけるワードスポッティングや高速マッチングに適用して有効であることを認識した。 3.言語モデルの構築とタスク適応 EDRコーパス(20万文、500万語)を用いてN-gram言語モデルを構築し、学習テキストの量とN-gramの性能の間にどのような関係があるかを調べて、高精度なN-gramを構築するために必要な学習テキスト量や語彙数を名らかにした.また、既存の大量の言語データに特定タスクの言語データを少量混合することによって、N-gram言語モデルのタスク適応が有効であることを確認した.
|