• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

雑音に頑健な音声認識手法の開発とモバイル環境への応用

Research Project

Project/Area Number 16500097
Research InstitutionYamagata University

Principal Investigator

小坂 哲夫  山形大学, 工学部, 助教授 (50359569)

Co-Investigator(Kenkyū-buntansha) 好田 正紀  山形大学, 工学部, 教授 (00205337)
加藤 正治  山形大学, 工学部, 助手 (10250953)
Keywords音声認識 / 耐雑音性 / 隠れマルコフモデル / 離散混合分布HMM / ヒストグラム同等化 / ケプストラム / コードブック
Research Abstract

本研究では,雑音下音声認識に有効な音響モデルとして離散混合出力分布型HMM(DMHMM)を提案し,種々の雑音環境下で検討を行ってきた.一般に殆どの音声認識システムにおいては,音響モデルとして混合連続分布型HMM(CHMM)が使用されている.しかし音声入力と音響モデルのミスマッチが生じる雑音下音声認識では,正規分布を仮定するCHMMが必ずしも有効とは限らない.これに対し,出力確率分布が離散分布で表現されるDMHMMでは,そのような仮定がなく,これまでの結果から,雑音環境での有効性が確認されている.このDMHMMベースの音声認識システムの雑音環境下での性能のさらなる向上を目指し,コードブック正規化の検討を継続した.コードブック正規化には,従来特徴量正規化として有効性が確認されているヒストグラム同等化法(HEQ>を用いている.ヒストグラム同等化はモデルと入力音声の特徴量の分布のずれを正規化する手法であり,実際の分布に基づいて変換関数を決定する.このため非線形変換が可能であり,加算性雑音のような,ケプストラム空間において,線形変換では表現できないような歪みの正規化が可能である.しかしCHMMでは正規分布を仮定しているため,分布の平均ベクトルはHEQで変換できても,分布の形状は変換することができない.これに対し,分布の形状を直接パラメータで表現するDMHMMでは,分布形状まで含めHEQで変換することが可能である.具体的には,モデルのコードブックのセントロイドを,HEQにより求めた変換関数を用いて変換することにより,コードブック正規化を行う.本手法の有効性を,雑音下音声認識により評価した.比較実験として1)CHMMvsDMHMM,2)入力特徴量正規化vsモデル正規化,3)正規化するデータが発話毎vs多量のデータ,という3つの比較の組み合わせで実験を行なった.この結果,CHMMとDMHMMの比較ではDMHMMが性能が高いこと,入力特徴量正規化とモデル正規化では,若干モデル正規化の性能が高いこと,正規化データは発話毎のデータを用いたほうが良いことが分かった.以上により,HMMにおいてHEQを用いたモデル正規化が可能であることが実証された.モデル正規化では入力の1フレームごと正規化する必要がないこと,モデルごとに異なる変換が可能であることなど多くの可能性を秘めており,今後の発展が期待できる.また1発話程度の少量のデータで大幅な性能向上が得られることが分かったが,これは雑音の種類があらかじめ分からなくとも,正規化が可能であることを示しており,実用化の観点から,大きなメリットがあると考えられる.

  • Research Products

    (8 results)

All 2006

All Journal Article (8 results)

  • [Journal Article] Noisy speech recognition based on codebook normalization of discrete-mixture HMMs2006

    • Author(s)
      Tetsuo Kosaka, Masaharu Katoh, Masaki Kohda
    • Journal Title

      ASA/ASJ Forth Joint Meeting 1pSC27

      Pages: 3041-3041

  • [Journal Article] 離散混合分布HMMのヒストグラム同等化を用いたコードブック正規化2006

    • Author(s)
      小坂哲夫, 加藤正治, 好田正紀
    • Journal Title

      電子情報通信学会技術研究報告 SP2006-25

      Pages: 25-30

  • [Journal Article] コードブック適応を用いた離散混合分布型HMMによる講演音声認識2006

    • Author(s)
      山本明祥, 熊倉拓哉, 加藤正治, 小坂哲夫, 好田正紀
    • Journal Title

      音声言語情報処理研究報告 2006-SLP-62

      Pages: 25-30

  • [Journal Article] コードブック適応を用いた離散混合分布型HMMによる講演音声認識2006

    • Author(s)
      山本明祥, 熊倉拓哉, 加藤正治, 小坂哲夫, 好田正紀
    • Journal Title

      日本音響学会講演論文集 2-2-9

      Pages: 69-70

  • [Journal Article] 話者ベクトルを用いた話者識別法における音響モデルの検討2006

    • Author(s)
      赤津達也, 加藤正治, 小坂哲夫, 好田正紀
    • Journal Title

      日本音響学会講演論文集 2-P-10

      Pages: 113-114

  • [Journal Article] 参議院会議音声の言語モデル適応2006

    • Author(s)
      加藤正治, 小坂哲夫, 好田正紀
    • Journal Title

      日本音響学会講演論文集 2-P-29

      Pages: 151-152

  • [Journal Article] 音素モデルを用いた話者ベクトルに基づく話者識別の検討2006

    • Author(s)
      赤津達也, 加藤正治, 小坂哲夫, 好田正紀
    • Journal Title

      電子情報通信学会技術研究報告 SP2006-101

      Pages: 95-99

  • [Journal Article] 話者ベクトルを用いた話者識別法における次元圧縮の効果2006

    • Author(s)
      赤津達也, 加藤正治, 小坂哲夫, 好田 正紀
    • Journal Title

      日本音響学会講演論文集 1-P-18

      Pages: 159-160

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi