ロバスト時変複素AR音声分析(Time-Varying Complex AR (TV-CAR) speech analysis)の構築を行い、それを音声認識のフロントエンドとしてHMM音声認識に適用することにより、ロバスト音声認識を実現する研究を行っている。時変複素AR(TV-CAR)音声分析とは、複素信号である解析信号に対して、AR係数を複素基底展開で記述する時変複報ARモデルパラメータを推定する方式であり、MMSE規範、M推定、補助変数(IV)法、GLS(一般化最小2乗法)、ELS(拡大最小2乗法)に基づく分析アルゴリズムの提案を平成13年までに行った。特に、GLS、ELS法で、付加雑音の影響を受けないロバストなスペクトル推定が実現できる。さらに、平成14年以降、音声分析アルゴリズムのさらなる高度化として、前向き後向き線形予測基準GLS、ELS分析法、Output Error基準による前向き後向き線形予測基準ELS法の提案を行った。HMM音声認識エンジンHTK(HMM Tool Kit)にロバストTV-CAR分析を組み込むために、TV-CAR分析による時変複素パラメータをLPCCに変換する方式の実装を行った。現在、時変複素パラメータをLPCC係数に変換し、HTKを用いてHMM音声認識実験を行うことにより、時変性と複素化の効果を調査中である。さらに、提案したELS法などのロバスト分析を用いてロバスト分析の効果を調査したい。
|