2011 Fiscal Year Annual Research Report

識別モデルを用いた音声認識手法の構築

Research Project

Project/Area Number	11J07750
Research Institution	Toyohashi University of Technology
Principal Investigator	藤井康寿豊橋技術科学大学, 大学院・工学研究科, 特別研究員(DC2)
Keywords	音声認識 / 識別モデル / HCNF / HMM / HCRF
Research Abstract	本研究においては,実環壌における自然な発話の音声認識性能の向上を目的として,識別モデルを用いた音声認識手法に関して検討を行う.本研究では特に,特徴抽出機能を有した識別モデルであるHidden Conditional Neural Fields(HCNF)を提案し,音声認識における有効性について調査する. 本年度は,HCNFを用いた音声認識手法を確立するために,モデル学習法の検討および,連続音素・音節認識によるモデルの評価を行った. HCNFは,隠れ状態および特徴抽出のための中間層を有し,その目的関数が凸ではないため,まずは頑健な学習手法に関して検討した.HCNFの学習のため,Conditional Random Fields(CRF)の学習において広く使用されているL-BFGSおよび,局所最適解に陥りにくい性質をもつStochastic Gradient Descent(SGD)による学習手法を検討した.L-BFGSでは,学習がうまく行われない事例が確認されたが,SGDでは,ランダムな初期値で状態系列が未知の場合においてもうまく学習されることが確認できた.頑健な学習手法の存在によってモデルの利用が可能になるため,SGDによってHCNFを学習可能であることを示した価値は大きい. HCNFの学習が可能になったため,連続音素認識実験によってモデルの有効性を評価した.実験データとして,新しいモデルの有効性を示すために広く用いられている英語のTIMITコーパスおよび,言語非依存性とデータ量に対してスケールすることを示すために日本語のJNASコーパスを使用した.実験結果より,HCNFは,これまで用いられてきたHidden Markov Model(HMM)およびHidden Conditional Random Fields(HCRF)によるモデルを上回ることがわかり,HCNFの有効性を示すことができた.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画通り,モデルの学習手法の確立および,連続音素認識による評価を行うことが出来たため.
Strategy for Future Research Activity	当初の予定通り,連続単語認識による評価および,大規模データによる評価を行なっていく.これらの評価を行うためには,計算量の問題を解決する必要がある.この問題は,GPGPUを用いることで解決できると考えられる.また,連続単語認識に拡張するためには,従来言語モデルによって表現されてきた情報をうまくHCNFにおいて表現する必要がある.これは,識別的言語モデルの枠組みを統合することで解決可能であると考えている.

Research Products
(3 results)

All 2012 2011

All Presentation (3 results)

[Presentation] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  International Workshop on Statistical Machine Learning for Speech Processing (IWSML) 2012
- Place of Presentation
  日本,京都
- Year and Date
  2012-03-31
[Presentation] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  Interspeech 2011
- Place of Presentation
  イタリア,フィレンツェ
- Year and Date
  2011-08-31
[Presentation] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2011
- Place of Presentation
  チェコ,プラハ
- Year and Date
  2011-05-25

2011 Fiscal Year Annual Research Report

識別モデルを用いた音声認識手法の構築

Principal Investigator

藤井 康寿 豊橋技術科学大学, 大学院・工学研究科, 特別研究員(DC2)

Current Status of Research Progress

Reason

Research Products

[Presentation] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011

Author(s)

Organizer

Place of Presentation

Year and Date

藤井康寿豊橋技術科学大学, 大学院・工学研究科, 特別研究員(DC2)