研究概要 |
1)ハンズフリー音声認識のための頑健な音響パラメータの検討 ハンズフリー音声認識では,話者とマイクロホン間の相対位置の変動と残響のため認識性能が著しく劣化する.このような変動に対する頑健性を改善するため,本研究では,一般化対数スケール上のフォワードマスキングに基づく新しい特徴パラメータ,「一般化動的ケプストラム(DyMFGC)」,を検討した.始めに,提案するフォワードマスキングをメルフィルタバンクスペクトルに適用した.更に,このフォワードマスキングをメルLPCスペクトルに適用した.これはメル周波数軸上の全極モデルで、簡単で効率のよい時間領域の手法で推定される.比較的静かな小さいオフィス環境下で、話者とマイクロホン間の距離が20〜200cmで変動するの数字音声を用いて検討した結果,無雑音HMMによる認識では,比較的SNRの良い白色雑音環境において,対数スケール上のダイナミックケプストラムやCMS付きMFCCよりも高い認識精度を与え,音源から100cm以下であれば90〜95%の認識精度を維持できることが分かった. 2)ハンズフリー音声へのHMMの適応の検討 また本研究では、SVD法とランク推定に基づくMLLR手法を開発した.この方法はMLLRを任意サイズの回帰クラスに適用すること及び2次の重回帰へと拡張することを可能にするものである.話者適応による予備実験の結果,SVDによるMLLRは,大語彙音声認識において通常のMLLRよりも高い認識精度を達成できることがわかった.更に,2次の重回帰により、雑音付加音声に対して認識精度を改善できることを示した. もう一つの検討として,付加雑音と残響の影響を受けた音声に適応させるため,パラレルモデル結合(PMC)法をセグメント単位入力HMMに拡張した.この方法は,通常のPMC法に比べ,付加雑音に対しては良い認識性能を得たが,残響に対してはあまり有効ではなかった.
|