• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

識別モデルを用いた音声認識手法の構築

研究課題

研究課題/領域番号 11J07750
研究種目

特別研究員奨励費

配分区分補助金
応募区分国内
研究分野 知覚情報処理・知能ロボティクス
研究機関豊橋技術科学大学

研究代表者

藤井 康寿  豊橋技術科学大学, 大学院・工学研究科, 特別研究員(PD)

研究期間 (年度) 2011 – 2012
研究課題ステータス 完了 (2012年度)
配分額 *注記
1,300千円 (直接経費: 1,300千円)
2012年度: 600千円 (直接経費: 600千円)
2011年度: 700千円 (直接経費: 700千円)
キーワード音声認識 / 識別モデル / HCNF / HMM / HCRF
研究概要

本研究においては,実環境における自然な発話の音声認識性能の向上を目的として,識別モデルを用いた音声認識手法に関して検討を行った.本研究では特に,特徴抽出機能を有した識別モデルであるHidden Conditional Neural Fields (HCNF)を提案し,音声認識における有効性について調査した.
前年度までに,モデルの学習法の検討および連続音素・音節認識による評価を行ったため,今年度は,前年度までの成果に関する論文投稿,HCNFの大規模化(コンテキスト依存モデル,N-gramモデルの利用),大語彙連続音声認識の実現,さらなる高精度化,およびその評価を目標とした.
本年度はまず,前年度までに得られていた成果についてまとめた英語論文が英語雑誌論文に再録され,1つ目の目標を達成できた.
次に,HCNFを大規模化するために,HCNFを扱うことができる大語彙連続音声認識デコーダの開発を行った.デコーダは,HCNFを重み付き有限状態トランスデューサー(WFST)として表現することで効率的に実装可能であった,WFSTは音響的なコンテキスト依存性や高次のN-gram言語モデルを自然に表現することが可能であり,デコーダの記述を簡単化できる.このデコーダからラティスを出力することで,負例を表す仮説集合の近似表現を大規模タスクにおいても取得することができるようになった.
さらに,近年音声認識において顕著な成功を収めているDeep Belief Network (DBN)をHCNFの初期値として使用する方法についても検討し,音声認識精度を改善できた.
現在は,大語彙連続音声認識のタスクでモデルを評価中である.
得られた研究成果については,国際会議及び英語論文としてまとめる予定である.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

今年度の前半期間において,今年度分の目標の半分まで予定通り研究が進んでいるため.

今後の研究の推進方策

当初の予定どおり,大語彙連続音声認識によってモデルの評価を行い,成果を論文にまとめる.

報告書

(2件)
  • 2012 実績報告書
  • 2011 実績報告書
  • 研究成果

    (4件)

すべて 2012 2011

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

  • [雑誌論文] Hidden Conditional Neural Fields for Continuous Phoneme Speech Recognition2012

    • 著者名/発表者名
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E95.D 号: 8 ページ: 2094-2104

    • DOI

      10.1587/transinf.E95.D.2094

    • NAID

      10031126718

    • ISSN
      0916-8532, 1745-1361
    • 関連する報告書
      2012 実績報告書
    • 査読あり
  • [学会発表] DEEP-HIDDEN CONDITIONAL NEURAL FIELDS FOR CONTINUOUS PHONEME SPEECH RECOGNITION2012

    • 著者名/発表者名
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • 学会等名
      International Workshop on Statistical Machine Learning for Speech Processing (IWSML) 2012
    • 発表場所
      日本,京都
    • 年月日
      2012-03-31
    • 関連する報告書
      2011 実績報告書
  • [学会発表] Hidden Boosted MMI and Hierarchical State Posterior Feature for Automatic Speech Recognition based on Hidden Conditional Neural Fields2011

    • 著者名/発表者名
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • 学会等名
      Interspeech 2011
    • 発表場所
      イタリア,フィレンツェ
    • 年月日
      2011-08-31
    • 関連する報告書
      2011 実績報告書
  • [学会発表] AUTOMATIC SPEECH RECOGNITION USING HIDDEN CONDITIONAL NEURAL FIELDS2011

    • 著者名/発表者名
      Yasuhisa Fujii, Kazumasa Yamamoto, Seiichi Nakagawa
    • 学会等名
      International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2011
    • 発表場所
      チェコ,プラハ
    • 年月日
      2011-05-25
    • 関連する報告書
      2011 実績報告書

URL: 

公開日: 2011-12-12   更新日: 2024-03-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi