研究概要 |
1)離散混合出力分布型HMMによる音声認識の複合雑音環境下における評価 これまで,雑音下音声認識に有効な音響モデルとして離散混合出力分布型HMM(DMHMM)の検討を行ってきた.一般に音声認識においては,音響モデルとして混合連続分布型HMM(CHMM)が使用されているが,雑音が重畳した場合の音声では混合分布でも対応が不可能である場合が想定される.このようなデータに対しては,正規分布の仮定のない,離散分布型HMMが有用である.このDMHMMは,これまでの検討により一般の環境雑音および突発性雑音下の音声認識に有効であることが分かっている.ここで突発性雑音と,ドアの開閉音,物体の落下音,舌打ちなど,短時間ではあるが周波数の特徴のばらつきが大きな雑音のことであり,音声認識に極めて悪影響を与えることが分かっている.しかし実際の応用を想定すると,突発性雑音が単独で出現することは少なく,むしろ一般の環境雑音に混じって,このような音が混入する場合が多いと考えられる.そこで環境雑音と突発性雑音が複合した雑音環境下におけるDMHMMの性能の検討を行なった.その結果,一般のCHMMと比較して28.1%の性能の向上が得られた.また従来のCHMMに尤度補償法であるAcoustic backing-off(AB)を組み合わせた手法はCHMMと比較して性能の向上は5.5%に留まる.よってAB法と比較しても高い性能が得られることが分かった. 2)離散混合分布HMMのコードブック正規化による雑音下音声認識 本研究ではDMHMMを用いた雑音下音声認識の更なる性能向上を目指し,雑音環境下におけるコードブック正規化の検討を行った.コードブック正規化には,従来特徴量正規化として有効性が確認されているヒストグラム同等化法(HEQ)を用い,雑音ごと,または1発話ごとでそれぞれ正規化を行った.この方法はDMHMMのコードブックを変更するため,音響モデル全体を変更することになる.モデル側での対処のため,パラメータ計算時に入力特徴量を1フレームごと正規化する必要がない.またモデルの種類ごと正規化のための変換関数を変えることも可能であるなどの利点がある.本研究では,男性10名の新聞読み上げ記事100文に,4種類の雑音をSNR=10dBで重畳したデータで評価実験を行った.その結果「雑音ごと」,「1発話ごと」のいずれの方法でも性能が向上することが分かった.また両者の比較では1発話ごとで正規化する場合がより性能が高い.以上により本手法の環境雑音下での有効性が確認された.
|