WFSTによる音声認識デコーダの機能の高度化と、多様な目的に適用可能なフレキシブルデコーダの実現を図り、下記の種々の実績を上げた。 (1)音声・非音声特徴を組み込んだデコーダの実現と評価雑音環境下で頑健に動作する音声認識を実現するため、音声・非音声検出(Voice Activity Detection : VAD)のスコアを仮説評価尺度に組み込んだデコーダを実現した。そのスコアを計算するためのGMM(混合ガウス分布)を、雑音環境や話者の音声の変化に自動的に適応させることにより、雑音中の音声認識性能が大幅に向上することを確認した。 (2)T3デコーダの性能評価:開発したT3音声認識デコーダの性能を、国際的に定評のある3つのデコーダ(juicer、HDecode、Sohinx3)の性能と比較し、実時間比(認饑時間)に対する認識精度において、T3デコーダが最も優れていること、さらにGPUを用いることによって、その特徴がさらに顕著になることを確認した。 (3)デコーダ技術の新たな展開:音声認識デコーダをSilverlight中で動作させることにより、webブラウザで音声認識が実現できることを示した。また、純粋関数型言語でWFSTデコーダをプログラミングすることによって、デコーダのプログラムが桁違いにコンパクトになり、デコーダを含む音声認識システムの拡張を容易に行う環境が構築できることを示した。 (4)transliterationへの滴用Joint source channel model(JSCM)を用いたtransliteration(固有名飼を別の言語の文字に置き換えること)に、WFSTデコーダを用いることにより、処理の高速化を実現した。 (5)デコーダの公開:T3音声認識デコーダをNICTに譲渡し、NICTから、国内の音声認識研究者を対象に公開を始めた。今後のメンテナンスを、NICTに委託した。
|