雑音の影響を受けにくい連続分布型HMMを実現するため、人間の聴覚がSNRの良い低次のホルマントのスペクトルピークに対する感度が高いという知見に基づき、ホルマントピークを強調した群遅延スペクトルを特徴ベクトルとし、周波数重み付け関数と逆分散とする周波数重み付けHMMを開発した。国際的な音声認識評価データベース(NOISEX-92)を用いて、周波数重み関数とそけを共分散行列に変換するときのスケーリング法について検討し、次の結果をえた。 (1)周波数重み関数は、HMM各状態の平均ベクトルから導いた平坦化パワースペクトルが最も効果的である。 (2)周波数重み関数をガウス分布の共分散に変換するときのスケールファクターは、各状態毎に重みの総和を1に正規化する方法、または、初期モデルの共分散行列式を基準として全分布を同じ割合で50〜150倍にスケーリングしたときに、広範囲のSNRで最大の認識率が得られる。 (3)耐雑音性の改善にはHMMの状態数を増加させることが極めて重要である。 (4)高域エネルギーの少ない雑音ではスペクトルの適応プリエンファシスが有効である。 (5)最適なパラメータを用いた場合、白色、有色及び自動車雑音を重畳した単語音声に対し、通常のHMMに比べ、等価SNRにして6〜12dB相当の認識率の改善が得られる。 (6)実用的見地から電話帯域音声を用い、代表的雑音低減手法であるスペクトルサブトラクション法と併用した場合にも、周波数重み付けHMMは低SNRで通常のHMMに比べ10%程度高い認識率を与える。
|