研究概要 |
(1)メルLPC分析による雑音と伝送歪みに頑健な音響パラメータの検討: ハンズフリー音声認識で問題となる残響とSNRの変動に対するため、周波数分解能に優れたメル線形予測分析で得られるスペクトルに対して,各種の聴覚特性の導入を検討した.先ず、6次のIIRフィルタで等ラウドネス特性を付加した後、メルLPC分析を行い、予測係数から直接一般化ケプストラム係数及び動的ケプストラムを求める方法を開発した.認識実験の結果,等ラウドネス特性とメルLPC分析を組み合わせることで,無雑音及び雑音環境下において、従来のLPCケプストラムやMFCCに比べ数%高い認識率が得られることを明らかにした.また、一般化対数の巾数が0.1〜0.3の範囲で認識精度を維持できることから,前方マスキングを導入することで、加法性雑音と部屋の伝送特性のような乗算性歪の両方の影響を低減できる見込みを得た. (2)2次項を含む重回帰による雑音及び伝送特性へのHMMの適応: 環境雑音にロバストなHMMを実現するためのもう一つの方法として,2次項を含む重回帰写像により、HMMに含まれるガウス分布の平均ベクトルを少量の学習データで適応する方法を検討した.本方法では,説明変数に2次項を含めることで正規方程式の次元数が増大し,病的状況に陥る場合があるため、SVD法を用いた解法と固有値計算をせずに事前に方程式のランクを推定する方法を開発した.その結果、低周波域に大きなエネルギーを持つ雑音に対しては,従来のMLLR法に比べ適応精度が向上することを示した.残響を含む音声に対する有効性を検討することが今後の課題である.
|