2002 年度実績報告書

状態・出力に相互依存性を有する確率モデルに基づく高精度な音声・ジェスチャ認識

研究課題

研究課題/領域番号	12680399
研究機関	早稲田大学
研究代表者	小林哲則早稲田大学, 理工学部, 教授 (30162001)
キーワード	音声認識 / ジェスチャ認識 / 音響モデル / 確率モデル
研究概要	本年度は,昨年度までに行った,PHMMの一般化(GPHMM : Generalized Partly-Hidden Markov Model)に関する研究の成果を基礎として,連続音声認識への拡張と,HMMとのハイブリッド化に関する検討を行い,次のような成果を得た。 1)GPHMMの連続音声認識による評価音響モデルの構成単位として半音節モデルを導入し,本研究室で開発したワンパストライグラムデコーダを用いてGPHMMの連続音声認識による評価を行なった.その結果,HMM,従来のPHMM,平滑化PHMMを上回る性能が得られた.HMMに対する誤認識の改善率は,12%となった。 2)平滑化GPHMMの連続音声認識による評価 GPHMMの確率をHMMの確率で補間・平滑化した平滑化GPHMM提案し,その性能を連続音声認識により評価した.SPHMMはGPHMMの誤りを16%改善し,HMMの誤りを25%改善した。通常,最尤法を用いて学習した確率モデルは,正解カテゴリに対し低い尤度を与えるわけではなく,非正解カテゴリに対し高い尤度を与えこれが誤認識の原因となる。SPHMMは,GPHMMとHMMが共に高いスコアを与えた単語仮説のみを正解とする粋組みとなっており,たまたま片方のモデルで高いスコアを与えた非正解カテゴリを候補から排除できる。このことが有効に機能して高い性能が得られたものと考えられる。以上のような一連の成果により,状態・出力に相互依存性を有する確率モデルという従来にない枠組みの下で,高精度な音声・ジェスチャ認識が実現できた。

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Generalization of State-Observation-Dependency in Partly Hidden Markov Models"ICSLP2002. 2673-2676 (2002)
[文献書誌] Tetsuji Ogawa, Tetsunori Kobayashi: "Hybrid Modeling of PHMM and HMM for Speech Recognition"ICASSP2003. (CD-ROM). (2003)
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルによる連続音声認識"電子情報通信学会技術研究報告. SP2002-40. 25-30 (2002)
[文献書誌] 小川哲司, 小林哲則: "部分隠れマルコフモデルの連続音声認識による評価"日本音響学会秋期研究発表会講演論文集. 51-52 (2002)