研究概要 |
本研究では,雑音下音声認識に有効な音響モデルとして離散混合出力分布型HMM(DMHMM)を提案し,種々の雑音環境下で検討を行ってきた.一般に殆どの音声認識システムにおいては,音響モデルとして混合連続分布型HMM(CHMM)が使用されている.しかし音声入力と音響モデルのミスマッチが生じる雑音下音声認識では,正規分布を仮定するCHMMが必ずしも有効とは限らない.これに対し,出力確率分布が離散分布で表現されるDMHMMでは,そのような仮定がなく,これまでの結果から,雑音環境での有効性が確認されている.このDMHMMベースの音声認識システムの雑音環境下での性能のさらなる向上を目指し,コードブック正規化の検討を継続した.コードブック正規化には,従来特徴量正規化として有効性が確認されているヒストグラム同等化法(HEQ>を用いている.ヒストグラム同等化はモデルと入力音声の特徴量の分布のずれを正規化する手法であり,実際の分布に基づいて変換関数を決定する.このため非線形変換が可能であり,加算性雑音のような,ケプストラム空間において,線形変換では表現できないような歪みの正規化が可能である.しかしCHMMでは正規分布を仮定しているため,分布の平均ベクトルはHEQで変換できても,分布の形状は変換することができない.これに対し,分布の形状を直接パラメータで表現するDMHMMでは,分布形状まで含めHEQで変換することが可能である.具体的には,モデルのコードブックのセントロイドを,HEQにより求めた変換関数を用いて変換することにより,コードブック正規化を行う.本手法の有効性を,雑音下音声認識により評価した.比較実験として1)CHMMvsDMHMM,2)入力特徴量正規化vsモデル正規化,3)正規化するデータが発話毎vs多量のデータ,という3つの比較の組み合わせで実験を行なった.この結果,CHMMとDMHMMの比較ではDMHMMが性能が高いこと,入力特徴量正規化とモデル正規化では,若干モデル正規化の性能が高いこと,正規化データは発話毎のデータを用いたほうが良いことが分かった.以上により,HMMにおいてHEQを用いたモデル正規化が可能であることが実証された.モデル正規化では入力の1フレームごと正規化する必要がないこと,モデルごとに異なる変換が可能であることなど多くの可能性を秘めており,今後の発展が期待できる.また1発話程度の少量のデータで大幅な性能向上が得られることが分かったが,これは雑音の種類があらかじめ分からなくとも,正規化が可能であることを示しており,実用化の観点から,大きなメリットがあると考えられる.
|