(1) 分散拡大法に関する検討 隠れマルコフモデル(HMM)に基づく音声認識において、環境騒音等の変動による学習時と認識時のミスマッチに起因する認識精度の低下を防ぐことを目的とし、モデルの分散を拡大する手法について検討した。 始めに、環境変動をモデル化するため、学習時の雑音モデルの分散を拡大することにより、長時間平均レベルは学習時と同じであるが、パワーが平均レベルの廻りに大きく変動する雑音を想定し、HMM合成によりレベル変動に対する頑健性を調べた。自動車内雑音及び白色雑音下の数字音声認識実験を行った結果、特徴ベクトルのパワー項の分散を6〜8倍に拡大することにより、低SNRにおいて、通常のHMM合成に比べ2〜3倍の広範囲のSNRで高い認識率を維持できることを見出した。この分散拡大率の最適値は、雑音の種類とSNRに依存して変化するが、1〜5次程度の低次のケプストラム成分の分散も同様に拡大することにより、どのような雑音条件においても高認識率を維持できる範囲を拡大できることが分かった。 (2) メル線形予測分析法(メルLPC)の開発 環境変動にロバストな音声認識を実現するためには、スペクトル包絡を表す特徴量自体の頑健性を改良する必要がある。そこで、本研究では上記の研究と並行して、聴覚の周波数分解能を考慮したスペクトル分析法として、1次オールパスフィルタを単位遅延とした効率の良いメル周波数軸上の線形予測分析法(メルLPC)を開発した。その結果、メルLPCは通常のLPCの2/3程度の次数で同程度の認識率が得られるだけでなく、白色雑音のような高周波成分の多い雑音に対して頑健であることが分かった。
|