自由発話音声の認識処理を、音響モデル・語彙・言語モデル等を統合したグラフ上の探索問題として定式化し、認識アルゴリズムの要素技術である音響モデル、単語マッチング、言語モデルの高度化に重点をおいて研究を進めた. 1.音響モデルの精密化と話者適応 音素環境依存の音響モデルHM-Netを、音素決定木に基づく逐次状態分割法で自動生成する手法DT-SSSを提案し、時間方向の状態分割や適切な初期モデルが、生成されるHM-Netの性能改善に有効であることを確認した.また、MAP推定法によるHM-Netの話者適応の有効性を検討した. 2.単語マッチングの尤度正規化 連続音声中の単語区間の尤度を正規化するために、音節連接HMMの上位N個の平均スコアに基づく正規化法を提案し、連続音声認識におけるワードスポッティングや高速マッチングに適用して有効であることを確認した. 3.言語モデルの構築とタスク適応 大語彙言語データからのN-gram言語モデルの構築と並行して、HMMに基づく言語モデル、確率文脈自由文法に基づく言語モデルの構築を進めた.また、既存の大量の言語データに特定タスクの言語データを少量混合することによって、N-gram言語モデルのタスク適応が有効であることを確認した.
|