本研究では、雑音に頑健な大語彙音声認識システムを実現するため、人間の聴感特性を考慮し、低周波領域のスペクトルピーク(ホルマント)を重視した雑音低減手法とスペクトル変動に強い混合正規分布型の音韻HMMを開発した。 雑音低減法としては、スペクトルサブトラクション法を基本とし、その欠点であるスペクトルの周波数領域での不連続性の発生を抑えるため、SNRと聴覚特性を考慮し、推定ウイ-ナフィルタの伝達関数を重みとする重み付き最少二乗法により対数スペクトルの余弦級数モデルを推定し、低SNR部の対数スペクトルを平滑化する方法を開発した。その結果、周波数重み付けHMMによる数字音声認識において、通常のスペクトルサブトラクション処理に比べ、-6dBの自動車雑音の場合、認識率は68%から88%へと大幅に改善できることを明らかにした。 また、先に開発した単一正規分布型波数重み付けHMMを音韻HMMに適用するため、混合正規分布型HMMに拡張した。特に、重み特性の最適化と重み係数を実際の統計的分布の広がりに適合させるためのスケーリング係数の決定に、誤り最少基準を用いて学習する方法を確立した。数字音声認識による評価の結果、従来の周波数重み付けHMMに比べて認識精度が改善されるだけでなく、同じ雑音環境で学習した通常のHMMに比べ、広範囲のSNRと雑音スペクトルの変動に対しても高い認識精度を達成できることがわかった。 今後の課題として、音韻連結モデルによる大語彙単語音声認識により、上記の雑音低減手法と周波数重み付けHMMを併用した場合の認識精度の評価を行う予定である。
|