研究概要 |
1)離散混合出力分布型HMMによる雑音下音声認識 従来,定常的な雑音への対処としてスペクトルサブトラクションやPMCなど種々の手法が提案され一定の成果を収めている.一方非定常雑音はスペクトルの特徴のバリエーションが大きく,大量のデータを集めてモデル化しにくいという問題がある.そのため,未知雑音,非定常雑音への対処は重要な課題の一つとなっている.本研究では,離散混合出力分布型HMM(DMHMM)を用い,未知の非定常雑音が重畳した音声に対するロバストな音声認識手法を検討した.本研究では特に非定常雑音下での音声認識性能向上のため,missing feature theory(MFT)に基づくDMHMMの離散分布の補正法を提案した.本方式の有効性を確認するため,種々の評価実験を行なった.まず雑音音声認識に有用な音声パラメータを検討するため,MFCCおよびLPCメルケプストラムを使用した比較実験を行なった.この結果認識パラメータとしてMFCCを使用するとLPCメルケプストラムを使用したときと比べ良好な結果を得ることができた.また従来法である混合連続分布HMM(CHMM)を使用した場合,CHMMの尤度を補正した場合(Acoustic backing off法),および本手法との比較を行なった.この結果,従来のCHMMを使用した場合と比べ,Acoustic backing off法では改善率が18.5%だったのに対し,本手法では48.5%の改善を得ることができた.以上により本手法の有効性が確認された. 2)ETSI標準フロントエンドを用いた雑音下音声認識の検討 本研究では,分散音声認識における問題点である背景雑音に対し,ETSI(European Telecommunications Standards Institute)で標準化されているフロントエンドをベースとして,日本語連続音声の認識精度向上のための検討を行なった.フロントエンドで用いられているコードブックを新たに日本語音声データから作成し直し,さらに分散正規化を用いることで認識精度が向上することが確認できた.認識実験は雑音下音声認識タスクの共通評価フレームワークであるAURORA-2Jを用いて行なった.その結果ベースラインに対し,55.75%の改善率が得られ,本手法の有効性が示された.
|