研究概要 |
1)離散混合出力分布型HMMによる雑音下音声認識 一般に音声認識においては、音響モデルとして混合連続分布型HMM(CHMM)が使用されているが,雑音が重畳した場合の音声では,混合分布でも対応が不可能である場合が想定される.このようなデータに対しては,正規分布の仮定のない離散分布型HMM(DHMM)が有用である.しかし従来のDHMMでは,パラメータ推定精度の問題があり,CHMMに比べ低い性能に留まっていた.本研究では近年提案された離散混合分布型HMM(DMHMM)をベースに,推定法としてMAP(事後確率最大化)推定を用いる手法を提案し,雑音下音声認識においての有効性を示した.さらに従来困難といわれていた,未知の非定常雑音が重畳した音声に対する頑健な音声認識手法を実現するため,DMHMMの離散分布の尤度補正法を提案した.音声認識実験の結果,この補正法は未知の非定常雑音に対し,極めて有効であることが示された.さらに環境雑音と非定常雑音の一種である突発性雑音が複合した雑音環境下において評価実験を行ない,従来のCHMMを用いる手法と比較して28.1%の性能向上が得られることを示した. 2)離散混合分布HMMのコードブック正規化による雑音下音声認識 本研究ではDMHMMを用いた雑音下音声認識の更なる性能向上を目指し,雑音環境下におけるコードブック正規化の検討を行った.コードブック正規化には,従来特徴量正規化として有効性が確認されているヒストグラム同等化法(HEQ)を用い,雑音ごと,または1発話ごとでそれぞれ正規化を行った.この方法はDMHMMのコードブックを変更するため,音響モデル全体を変更することになる.モデル側での対処のため,パラメータ計算時に入力特徴量を1フレームごと正規化する必要がない.またモデルの種類ごと,正規化のための変換関数を変えることも可能であるなどの利点がある.音声認識実験の結果「雑音ごと」,「1発話ごと」のいずれの方法でも性能が向上することが分かった.また両者の比較では1発話ごとで正規化する場合がより性能が高い.以上により本手法の環境雑音下での有効性が示された. 以上による方法により,モバイル環境での利用など音声認識を実用化する際問題となる,耐雑音性の問題について,大幅な性能改善を得ることができた.今後は実際のモバイル環境での評価などを進めて行きたい.
|