ロバスト時変複素AR音声分析の構築を行い、フロントエンドとしてHMM音声認識に適用することでロバスト音声認識を実現する研究を行っている。 時変複素AR音声分析とは、複素信号である解析信号に対して、AR係数を複素基底展開で記述する時変複素ARモデルパラメータを推定する方式であり、すでに、MMSE規範、M推定、補助変数(IV)法、GLS(一般化最小2乗法)、ELS(拡大最小2乗法)に基づく分析アルゴリズムの提案を行っている。前年度は、付加雑音に対してロバストな分析法として、GLS法とELS法に基づく方式の提案を行った。GLS、ELS法とは、式誤差をARモデルで記述し、その逆フィルタ(白色化フィルタ)により式誤差を白色化することにより、雑音の影響を受けないロバスト推定を実現する方式である。一括型のアルゴリズムを用いているため、時変複素ARモデルと白色化フィルタパラメータを反復推定により推定する。GLS、ELSの導入により、付加雑音の影響を受けない比較的潰れていないスペクトルが推定できる。今年度は、時変複素音声分析法の高度化として、前年度に提案したGLS法とELS法に、安定な推定が可能になる前向き後向き線形予測を導入した。前向き後向き線形予測とは過去の音声信号を用いて現時刻の音声信号を予測する前向き予測だけでなく、未来の音声信号を用いて現在の音声信号を予測する後向き予測も用いてパラメータを推定する方式である。前向き後向き予測の導入より、分析フレーム間でスムーズなスペクトルが推定されることを確かめた。この結果を、ICSLP2002(2002年9月、デンバー、アメリカ)、MMSP2002(2002年2月、セントトーマス、USバージン諸島)にて発表した。 HMM音声認識に時変複素音声分析を組み込むために、HMM音声認識ソフトJuliusならびにHTKの導入とその動作確認を行った。
|