• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

WFSTによる音声認識の高度化

Research Project

Project/Area Number 21300062
Research InstitutionTokyo Institute of Technology

Principal Investigator

古井 貞熙  東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)

Co-Investigator(Kenkyū-buntansha) 篠田 浩一  東京工業大学, 大学院・情報理工学研究科, 准教授 (10343097)
篠崎 隆宏  東京工業大学, 大学院・情報理工学研究科, 助教 (80447903)
Keywords音声認識 / WFST / デコーダ
Research Abstract

WFSTによる音声認識デコーダの機能の高度化と、多様な目的に適用可能なフレキシブルデコーダの実現を図り、下記の種々の実績を上げた。
(1)音声・非音声特徴を組み込んだデコーダの実現と評価雑音環境下で頑健に動作する音声認識を実現するため、音声・非音声検出(Voice Activity Detection : VAD)のスコアを仮説評価尺度に組み込んだデコーダを実現した。そのスコアを計算するためのGMM(混合ガウス分布)を、雑音環境や話者の音声の変化に自動的に適応させることにより、雑音中の音声認識性能が大幅に向上することを確認した。
(2)T3デコーダの性能評価:開発したT3音声認識デコーダの性能を、国際的に定評のある3つのデコーダ(juicer、HDecode、Sohinx3)の性能と比較し、実時間比(認饑時間)に対する認識精度において、T3デコーダが最も優れていること、さらにGPUを用いることによって、その特徴がさらに顕著になることを確認した。
(3)デコーダ技術の新たな展開:音声認識デコーダをSilverlight中で動作させることにより、webブラウザで音声認識が実現できることを示した。また、純粋関数型言語でWFSTデコーダをプログラミングすることによって、デコーダのプログラムが桁違いにコンパクトになり、デコーダを含む音声認識システムの拡張を容易に行う環境が構築できることを示した。
(4)transliterationへの滴用Joint source channel model(JSCM)を用いたtransliteration(固有名飼を別の言語の文字に置き換えること)に、WFSTデコーダを用いることにより、処理の高速化を実現した。
(5)デコーダの公開:T3音声認識デコーダをNICTに譲渡し、NICTから、国内の音声認識研究者を対象に公開を始めた。今後のメンテナンスを、NICTに委託した。

  • Research Products

    (14 results)

All 2011 2010

All Journal Article (4 results) (of which Peer Reviewed: 1 results) Presentation (10 results)

  • [Journal Article] 音声認識実用化技術の展開2010

    • Author(s)
      古井貞煕、小林哲則、矢頭隆、大淵康成、河村聡典、三木清一、庄境誠
    • Journal Title

      電子情報通信学会誌

      Volume: Vol.93 Pages: 725-740

  • [Journal Article] A new hybrid method for machine transliteration2010

    • Author(s)
      D.Yang, P.Dixon, S.Furui
    • Journal Title

      電子情報通信学会英文論文誌

      Volume: E93-D Pages: 3377-3383

    • Peer Reviewed
  • [Journal Article] WFSTに基づくT^3音声認識デコーダ2010

    • Author(s)
      大西翼、ディクソン・ポール、古井貞煕
    • Journal Title

      情報処理

      Volume: 51 Pages: 1440-1448

  • [Journal Article] 音声認識技術の実用化への取り組み2010

    • Author(s)
      古井貞煕
    • Journal Title

      情報処理

      Volume: 51 Pages: 1387-1393

  • [Presentation] コンピュータによる音声認識のこれまでと今後の展望2011

    • Author(s)
      古井貞煕
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京都
    • Year and Date
      2011-03-09
  • [Presentation] Selected topics from ASR research for Asian languages at Tokyo Tech2010

    • Author(s)
      S.Furui
    • Organizer
      APSIPAASC 2010
    • Place of Presentation
      Singapore
    • Year and Date
      2010-12-17
  • [Presentation] Automatic speech recognition-Where we are, and where we should go-2010

    • Author(s)
      S.Furui
    • Organizer
      ICALIP 2010
    • Place of Presentation
      Shanghai, China
    • Year and Date
      2010-11-23
  • [Presentation] VAD-measure-embedded decoder with online model adaptation2010

    • Author(s)
      T.Oonishi, K.Iwano, S.Furui
    • Organizer
      INTERSPEECH 2010
    • Place of Presentation
      千葉県
    • Year and Date
      2010-09-30
  • [Presentation] An empirical comparison of the T^3, Juicer, HDecode and Sphinx3 decoders2010

    • Author(s)
      J.R.Novak, P.Dixon, S.Furui
    • Organizer
      INTERSPEECH 2010
    • Place of Presentation
      千葉県
    • Year and Date
      2010-09-29
  • [Presentation] Exploring web-browser based runtimes engines for creating ubiquitous speech interfaces2010

    • Author(s)
      P.Dixon, S.Furui
    • Organizer
      INTERSPEECH 2010
    • Place of Presentation
      千葉県
    • Year and Date
      2010-09-27
  • [Presentation] VADの信頼度を利用した音声認識デコーダの高精度化2010

    • Author(s)
      大西翼、岩野公司、古井貞煕
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      大阪市
    • Year and Date
      2010-09-15
  • [Presentation] 柔軟でコンパクトな純粋関数型デコーダの検討2010

    • Author(s)
      篠崎隆宏、古井貞煕
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      大阪市
    • Year and Date
      2010-09-14
  • [Presentation] Jointly optimizing a two-step conditional random field model for machine transliteration and its fast decoding algorithm2010

    • Author(s)
      D.Yang, P.Dixon, S.Furui
    • Organizer
      ACL 2010
    • Place of Presentation
      Uppsala, Sweden
    • Year and Date
      2010-07-11
  • [Presentation] 音声・非音声の信頼度を利用した雑音に頑健な音声認識デコーダの検討2010

    • Author(s)
      大西翼、岩野公司、古井貞煕
    • Organizer
      電子情報通信学会音声研究会
    • Place of Presentation
      福岡県
    • Year and Date
      2010-06-18

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi