• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

識別モデルを用いた音声認識手法の構築

Research Project

Project/Area Number 11J07750
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Perception information processing/Intelligent robotics
Research InstitutionToyohashi University of Technology

Principal Investigator

藤井 康寿  豊橋技術科学大学, 大学院・工学研究科, 特別研究員(PD)

Project Period (FY) 2011 – 2012
Project Status Completed (Fiscal Year 2012)
Budget Amount *help
¥1,300,000 (Direct Cost: ¥1,300,000)
Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Keywords音声認識 / 識別モデル / HCNF / HMM / HCRF
Research Abstract

本研究においては,実環境における自然な発話の音声認識性能の向上を目的として,識別モデルを用いた音声認識手法に関して検討を行った.本研究では特に,特徴抽出機能を有した識別モデルであるHidden Conditional Neural Fields (HCNF)を提案し,音声認識における有効性について調査した.
前年度までに,モデルの学習法の検討および連続音素・音節認識による評価を行ったため,今年度は,前年度までの成果に関する論文投稿,HCNFの大規模化(コンテキスト依存モデル,N-gramモデルの利用),大語彙連続音声認識の実現,さらなる高精度化,およびその評価を目標とした.
本年度はまず,前年度までに得られていた成果についてまとめた英語論文が英語雑誌論文に再録され,1つ目の目標を達成できた.
次に,HCNFを大規模化するために,HCNFを扱うことができる大語彙連続音声認識デコーダの開発を行った.デコーダは,HCNFを重み付き有限状態トランスデューサー(WFST)として表現することで効率的に実装可能であった,WFSTは音響的なコンテキスト依存性や高次のN-gram言語モデルを自然に表現することが可能であり,デコーダの記述を簡単化できる.このデコーダからラティスを出力することで,負例を表す仮説集合の近似表現を大規模タスクにおいても取得することができるようになった.
さらに,近年音声認識において顕著な成功を収めているDeep Belief Network (DBN)をHCNFの初期値として使用する方法についても検討し,音声認識精度を改善できた.
現在は,大語彙連続音声認識のタスクでモデルを評価中である.
得られた研究成果については,国際会議及び英語論文としてまとめる予定である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

今年度の前半期間において,今年度分の目標の半分まで予定通り研究が進んでいるため.

Strategy for Future Research Activity

当初の予定どおり,大語彙連続音声認識によってモデルの評価を行い,成果を論文にまとめる.

Report

(2 results)
  • 2012 Annual Research Report
  • 2011 Annual Research Report
  • Research Products

    (4 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

  • [Journal Article] Hidden Conditional Neural Fields for Continuous Phoneme Speech Recognition2012

    • Author(s)
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E95.D Issue: 8 Pages: 2094-2104

    • DOI

      10.1587/transinf.E95.D.2094

    • NAID

      10031126718

    • ISSN
      0916-8532, 1745-1361
    • Related Report
      2012 Annual Research Report
    • Peer Reviewed
  • [Presentation] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012

    • Author(s)
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • Organizer
      International Workshop on Statistical Machine Learning for Speech Processing (IWSML) 2012
    • Place of Presentation
      日本,京都
    • Year and Date
      2012-03-31
    • Related Report
      2011 Annual Research Report
  • [Presentation] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011

    • Author(s)
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • Organizer
      Interspeech 2011
    • Place of Presentation
      イタリア,フィレンツェ
    • Year and Date
      2011-08-31
    • Related Report
      2011 Annual Research Report
  • [Presentation] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011

    • Author(s)
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • Organizer
      International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2011
    • Place of Presentation
      チェコ,プラハ
    • Year and Date
      2011-05-25
    • Related Report
      2011 Annual Research Report

URL: 

Published: 2011-12-12   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi