現在の音声認識技術における大きな課題の一つは、変化する雑音環境に対する頑健性の向上である。音声認識における一般的な特徴量抽出は、まず数十ミリ秒ごとに短時間スペクトルを求め、フィルタバンクによりスペクトルの微細構造を取り除き、対数スペクトル領域でコサイン変換することにより行われる。音声認識に必要な音声の特徴は、これら一連の操作を経て抽出された音声特徴量により最も的確に表現されるが、他方で音声に対する雑音の影響はこれらフィルタ演算や対数演算等により定式化が難しくなる。そこで提案する目的音GMMスペクトル補正法(TGSC法)では、雑音の補償操作を雑音の定式化に最も適した短時間スペクトル領域で行い、補償のためのパラメタ推定に音声の性質を表すのに最も適した音声特徴量に対する最尤基準を用いるという新しいアプローチをとる。 本年度の研究では、まずTGSC法に、ケプストラム領域でその長時間平均を差し引くことで音声伝達チャネルの影響を取り除く技術であるCMSを組み込むことで拡張を行い、認識性能が向上することを確認した。また、TGSC法におけるパラメタの最適化について、使用するガウス混合モデル(GMM)の混合数の最適化や繰り返し最適化法における繰り返し数の最適化などを行い、耐雑音性能への影響を抑えながら計算量を抑制できる条件を明らかにした。特にパラメタ最適化の繰り返し数を1とすることで、耐雑音性を向上させつつ実時間動作が可能であることを実験により示した。
|