ロバスト時変複素AR音声分析(Time-Varying Complex AR (TV-CAR) speech analysis)の構築を行い、フロントエンドとしてHMM音声認識に適用することでロバスト音声認識を実現する研究を行っている。時変複素AR(TV-CAR)音声分析とは、複素信号である解析信号に対して、AR係数を複素基底展開で記述する時変複素ARモデルパラメータを推定する方式であり、すでに、MMSE規範、M推定、補助変数(IV)法、GLS(一般化最小2乗法)、ELS(拡大最小2乗法)に基づく分析アルゴリズムの提案を行っている。既に、付加雑音に対してロバストな分析法として、GLS法とELS法に基づく方式の提案を行っている。GLS、ELS法とは、式誤差をARモデルで記述し、その逆フィルタ(白色化フィルタ)により式誤差を白色化することにより、雑音の影響を受けないロバスト推定を実現する方式である。一括型のアルゴリズムを用いているため、時変複素ARモデルと白色化フィルタパラメータを反復推定により推定する。ELS分析はGLS分析と等価な分析法であるが、パラメータのバイアス成分を推定し、MMSE分析による推定パラメータからバイアス成分を減算することにより、不偏推定量を求める洗練された方式である。GLS、ELSの導入により、付加雑音の影響を受けない比較的潰れていないスペクトルが推定できる。これまで、前向き線形予測基準GLS、ELS分析法、前向き後向き線形予測基準GLS、ELS分析法、Output Error基準による前向き後ろ向き予測基準ELS法の提案を行っている。Output Error法は、式誤差法に比べ急峻なスペクトルが推定できることを示し、9月に琉球大学にて開催された日本音響学会秋季研究発表会において発表を行った。さらに、提案している時変分析の応用として、時変分析を用いたIP電話用パケットロス隠蔽(PLC)方式の研究を行っているが、今回、G. 711PLC方式の改良方式を提案し、提案方式が従来方式より優れていることを示し、2005年2月にスイスグリンデルワルドにて開催された国際会議EuroIMSA2005において発表した。HMM音声認識に時変複素音声分析を組み込むために、HMM音声認識エンジンHTK(HMM Tool Kit)によるMFCCとLPCCによる学習と認識実験を行い、TV-CAR分析のHTKに組み込む検討として、時変分析による時変パラメータをLPCCに変換する方式の検討を行った。
|