研究概要 |
本研究においては,実環境における自然な発話の音声認識性能の向上を目的として,識別モデルを用いた音声認識手法に関して検討を行った.本研究では特に,特徴抽出機能を有した識別モデルであるHidden Conditional Neural Fields (HCNF)を提案し,音声認識における有効性について調査した. 前年度までに,モデルの学習法の検討および連続音素・音節認識による評価を行ったため,今年度は,前年度までの成果に関する論文投稿,HCNFの大規模化(コンテキスト依存モデル,N-gramモデルの利用),大語彙連続音声認識の実現,さらなる高精度化,およびその評価を目標とした. 本年度はまず,前年度までに得られていた成果についてまとめた英語論文が英語雑誌論文に再録され,1つ目の目標を達成できた. 次に,HCNFを大規模化するために,HCNFを扱うことができる大語彙連続音声認識デコーダの開発を行った.デコーダは,HCNFを重み付き有限状態トランスデューサー(WFST)として表現することで効率的に実装可能であった,WFSTは音響的なコンテキスト依存性や高次のN-gram言語モデルを自然に表現することが可能であり,デコーダの記述を簡単化できる.このデコーダからラティスを出力することで,負例を表す仮説集合の近似表現を大規模タスクにおいても取得することができるようになった. さらに,近年音声認識において顕著な成功を収めているDeep Belief Network (DBN)をHCNFの初期値として使用する方法についても検討し,音声認識精度を改善できた. 現在は,大語彙連続音声認識のタスクでモデルを評価中である. 得られた研究成果については,国際会議及び英語論文としてまとめる予定である.
|