(1)分散拡大法に関する検討: 隠れマルコフモデル(HMM)に基づく音声認識において、環境騒音等の変動による学習時と認識時のミスマッチによる認識精度の低下を防ぐことを目的とし、モデルの分散を拡大する手法を検討した。具体的な方法として、雑音HMMの分散を拡大することにより、長時間平均レベルは同じであるがパワーが平均レベルの廻りに大きく変動する雑音のモデルを仮定し、HMM合成する方法を開発した。種々の雑音環境について連続単語認識実験による検討を行った結果、雑音の種類によらず平均レベルからの偏差が5〜7dBになるように0次MFCCの分散を拡大することにより、SNR整合時の認識率を低下させることなく広範囲のSNRで高認識率を維持できることを明らかにした。 また、雑音スペクトルや伝送特性差が変動する場合について検討した結果、高次のMFCCの分散を拡大することにより、変動に対する頑健性を著しく改善できる場合もあるが、雑音スペクトルとSNRによっては効果のない場合もあり、MFCC各成分の拡大率をどのように最適設定するかが今後の課題として残された。 (2)メル線形予測分析法(メルLPC)の開発: 環境変動にロバストな音声認識を実現するためには、スペクトル包絡を表す特徴量自体の頑健性を改良する必要がある。そこで、上記の研究と並行して、聴覚の周波数分解能を考慮したスペクトル分析法として、1次オールパスフィルタを単位遅延とした効率の良いメル周波数軸上の線形予測分析法(メルLPC)を開発した。その結果、メルLPCは通常のLPCの2/3程度の次数で同程度の認識率が得られるだけでなく、白色雑音のような高周波成分の多い雑音に対して頑健であることが分かった。
|