昨年度は、レベルが急峻に変動するような雑音環境に頑健なHMMを合成する方法として、0次MFCCの分散を拡大した雑音HMMと音声HMMから雑音付加音声HMMを合成する方法を開発した。この方法では、分散の拡大率をいかに最適設定するかが重要な課題であった。本年度は、種々の雑音について連続単語認識実験により検討を行った結果、雑音の種類によらず平均レベルからの偏差が5〜7dBになるように分散を拡大することにより、整合SNRでの認識率を低下させることなく広範囲のSNRで高認識率を維持できることを明らかにした。 また分散拡大法をスペクトルサブトラクション法(SS法)をHMMの学習及び認識時に適用した方法と比較した結果、ほぼ同等の耐雑音性能を示すことが明らかになった。このSS法による認識は実データによるモデル学習を必要とするのに対し、提案法では雑音及び音声HMMから簡単に再合成できるため極めて実用性が高いと言える。 次に、雑音スペクトルや伝送特性差が変動する場合について検討した結果、高次のMFCCの分散を拡大することにより、変動に対する頑健性を著しく改善できる場合もあるが、雑音スペクトルとSNRによっては効果のない場合もあり、MFCCの各成分に対する拡大率を、雑音や伝送特性差のスペクトル特性に応じてどのように最適設定するかが今後の課題である。
|