始めに、周波数重み付けHMMを、分析部における代表的雑音低減手法であるスペクトルサブトラクション法と併用した場合の効果も評価するため、周波数重み付けHMMをスペクトル上の処理の容易な帯域フィルタ群分析によるスペクトルに拡張した。次に、周波数重み行列を連続分布HMMの共分散に置き換える際のスケールの設定法について検討した。前年度は、重みの総和が1となるように設定したときに耐雑音性が最も高いという結果を得たが、スケールは雑音の付加による許容変動幅を決定すると同時に、モデル間の重なりに影響を与えるので、広範囲のSNRの雑音付加音声に対する認識率を基準として、最適スケールを決定する方法を検討した。本年度は、昨年度と同じ音声データベース(NOISEX-92)を実用的見地から電話帯域に制限して認識実験を行った。その結果、スケールの認識率への影響は非常に大きく、雑音の種類とSNRにより、その値は無雑音学習データの共分散行列の行列式の50〜150倍で最大の認識率が得られ、通常のHMMに比べ、等価SNRにして6〜10dBの認識精度の改善が得られた。また、スペクトルサブトラクション法で雑音を低減した音声スペクトルを認識した場合、高SNRでは通常のHMMとほとんど差は無くなるが、低SNRでは10%程度高い認識率を示すことがわかた。なお、認識時に、ビタビパスに沿った音声フレームのゆう度に対し、セグメンタSNRに依存した重み付けを行う方法について検討したが、HMMは時間伸縮の自由度が大きいため、極端なマッチングが生じ、期待した結果は得られないことがわかった。従って、時間軸重み付けは今後の課題として残された。
|