人間の聴覚では、SNRの良い低次ホルマントのスペクトルピークに対する感度が高いため、雑音の影響を受けにくいと考えられる。そこで、低域周波数やスペクトルピーク部に対するHMMの感度を高め、耐雑音性能を改善するため、ガウス分布関数の指数部が重み付けユークリッド距離と等価であることに着目し、スペクトル領域における周波数重み付け関数の逆数を分散として取り入れた周波数重み付HMMを開発した。 周波数重み関数としては、HMM各状態の平均ベクトルから導いた平坦化パワースペクトルおよび状態に独立な低域重み関数を検討した。また、周波数重み関数をガウス分布の共分散に変換するときのスケールファクターの決定法として、状態毎に尤度最大の基準で推定する方法と、全状態に共通とする正規化法について検討した。 国際的な音声認識評価データベース(NOISEX-92)を用いて、各方法の組合せについて比較した結果、ある程度スペクトルピークを平坦化した状態依存型重み関数と正規化スケーリングが最も有効であることが明らかになった。最適なパラメータを用いた場合、白色、有色及び自動車雑音を重畳した単語音声に対し、通常のHMMに比べ、それぞれ等価SNRにして12、9、6dB相当の認識率の改善が得られた。 更に、新しい知見として、耐雑音性の改善には状態数を増加させることが極めて重要であること、また高域エネルギーの少ない雑音ではスペクトルの適応プリエンファシスが有効であることが明らかになった。
|