識別モデルを用いた音声認識手法の構築

Research Project

Project/Area Number	11J07750
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Perception information processing/Intelligent robotics
Research Institution	Toyohashi University of Technology
Principal Investigator	藤井康寿豊橋技術科学大学, 大学院・工学研究科, 特別研究員(PD)
Project Period (FY)	2011 – 2012
Project Status	Completed (Fiscal Year 2012)
Budget Amount *help	¥1,300,000 (Direct Cost: ¥1,300,000) Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000) Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Keywords	音声認識 / 識別モデル / HCNF / HMM / HCRF
Research Abstract	本研究においては,実環境における自然な発話の音声認識性能の向上を目的として,識別モデルを用いた音声認識手法に関して検討を行った.本研究では特に,特徴抽出機能を有した識別モデルであるHidden Conditional Neural Fields (HCNF)を提案し,音声認識における有効性について調査した. 前年度までに,モデルの学習法の検討および連続音素・音節認識による評価を行ったため,今年度は,前年度までの成果に関する論文投稿,HCNFの大規模化(コンテキスト依存モデル,N-gramモデルの利用),大語彙連続音声認識の実現,さらなる高精度化,およびその評価を目標とした. 本年度はまず,前年度までに得られていた成果についてまとめた英語論文が英語雑誌論文に再録され,1つ目の目標を達成できた. 次に,HCNFを大規模化するために,HCNFを扱うことができる大語彙連続音声認識デコーダの開発を行った.デコーダは,HCNFを重み付き有限状態トランスデューサー(WFST)として表現することで効率的に実装可能であった,WFSTは音響的なコンテキスト依存性や高次のN-gram言語モデルを自然に表現することが可能であり,デコーダの記述を簡単化できる.このデコーダからラティスを出力することで,負例を表す仮説集合の近似表現を大規模タスクにおいても取得することができるようになった. さらに,近年音声認識において顕著な成功を収めているDeep Belief Network (DBN)をHCNFの初期値として使用する方法についても検討し,音声認識精度を改善できた. 現在は,大語彙連続音声認識のタスクでモデルを評価中である. 得られた研究成果については,国際会議及び英語論文としてまとめる予定である.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度の前半期間において,今年度分の目標の半分まで予定通り研究が進んでいるため.
Strategy for Future Research Activity	当初の予定どおり,大語彙連続音声認識によってモデルの評価を行い,成果を論文にまとめる.

Report

(2 results)

2012 Annual Research Report
2011 Annual Research Report

Research Products
(4 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

[Journal Article] Hidden Conditional Neural Fields for Continuous Phoneme Speech Recognition2012
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E95.D Issue: 8 Pages: 2094-2104
- DOI
  10.1587/transinf.E95.D.2094
- NAID
  10031126718
- ISSN
  0916-8532, 1745-1361
- Related Report
  2012 Annual Research Report
- Peer Reviewed
[Presentation] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  International Workshop on Statistical Machine Learning for Speech Processing (IWSML) 2012
- Place of Presentation
  日本,京都
- Year and Date
  2012-03-31
- Related Report
  2011 Annual Research Report
[Presentation] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  Interspeech 2011
- Place of Presentation
  イタリア,フィレンツェ
- Year and Date
  2011-08-31
- Related Report
  2011 Annual Research Report
[Presentation] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011
- Author(s)
  Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
- Organizer
  International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2011
- Place of Presentation
  チェコ,プラハ
- Year and Date
  2011-05-25
- Related Report
  2011 Annual Research Report

識別モデルを用いた音声認識手法の構築

Principal Investigator

藤井 康寿 豊橋技術科学大学, 大学院・工学研究科, 特別研究員(PD)

¥1,300,000 (Direct Cost: ¥1,300,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Hidden Conditional Neural Fields for Continuous Phoneme Speech Recognition2012

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Presentation] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012

Author(s)

Organizer

Place of Presentation

Year and Date

Related Report

[Presentation] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011

Author(s)

Organizer

Place of Presentation

Year and Date

Related Report

[Presentation] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011

Author(s)

Organizer

Place of Presentation

Year and Date

Related Report

藤井康寿豊橋技術科学大学, 大学院・工学研究科, 特別研究員(PD)