2009 Fiscal Year Annual Research Report
Project/Area Number |
21300062
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
古井 貞熙 Tokyo Institute of Technology, 大学院・情報理工学研究科, 教授 (90293076)
|
Co-Investigator(Kenkyū-buntansha) |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 准教授 (10343097)
篠崎 隆宏 東京工業大学, 大学院・情報理工学研究科, 助教 (80447903)
|
Keywords | 音声認識 / WFST / デコーダ |
Research Abstract |
WFSTによる音声認識デコーダの機能の高度化と、多様な目的に適用可能なフレキシブルデコーダの実現を図り、下記の実績を上げた (1) WFSTのOn-the-fly合成アルゴリズムの改良:音声認識で利用するモデルの大規模化を実現するため、認識時に探索ネットワータを動的に合成する手法(on-the-fly合成)の高速化を実現した。過去に提案した最適化付きon-the-fly合成手法に高速化のための技術を追加した。具体的には、WFSTのトポコシーの最適化、合成演算で利用する半環演算の最適化、二つのラベル集合の高速な積集合計算法を実装・評価したその結果、Corpus of Spontaneous Japanese(CSJ)を用いた大語彙音声認識タスクにおいて大幅な認識速度の改善が得られることが確認できたまた、これにより、数十万語の超大語彙タスクにおいて実時間での音声認識を実現することに成功した。 (2) 音声区間検出機能のデコーダへの組み込み高雑音環境下において頑健な音声認識を案現するため、Voice Activity Detection(VAD)のスコアを組み込んだデコーダを実現した。これはGaussian Mixture Model(GMM)により音声・非音声の信頼度をフレーム毎に算出し,その信頼度を利用して,単語音声・無音を表す仮説の音響尤度を調整する手法であるこの手法は、従來のフロントエントで非音声のフレームを棄却する手法(フロントエンド型VAD手法)と比べて、音声フレームを誤って棄却するエラーを除去することができる。このため、高雑音環境下など音声と非音声の判定が難しの環境下において、認識精度を改善することができるDrivers Japanese Speech Corpus in a Car Environment(DJSC)タスクにおいて、本手法により、従来の一般的なフロントエンド型VAD手法(零交差とパワーの閾値による手法、音声・非音声GMMの尤度比を利用する手法)と比べて大幅な認識率の改善が確認され、本手法の有効性が確かめられた。 (3)音声認識デコーダの公開:本研究課題で作成したデコーダを、音声認識研究者に広く公開する準備を進めた。
|