Research Abstract |
平成22年度は,音声検索エンジンの基本性能(音声-音素変換,高速検索)の向上に注力した。 (1)音声-音素変換器の開発では,未知語に対する検索性能を保証するため,調音特徴ベースの高精度サブワード(約1,000種の音節)音声認識エンジン開発を目指している。本年度は,言語モデル(LM)なしで音素認識率88%(音素正解精度78%)の性能を得た。音響モデル(AM)に,調音特徴系列を表現する5状態triphone HMMを使用することで,湧出しの少ない音素識別が可能になった。今後サブワードLMと組合せ,目標の90%(80%)を越える性能を目指す。また,頑健性の確保についても評価・改良を行う。 (2)高速検索では,キーワード長が増えると探索領域が指数爆発を起こす問題を解決するため,キーワードを分割する手法を検討し実験から評価した。この結果,キーワードを分割する際に,各クエリ中の音素数を6~8個とし,余りが最小となる分割を採択することで,最も高速な結果が得られることが明らかとなった。今後,等分割以外の比較,他のパラメータに関する比較評価を行う。 現在,プロトタイプシステムとしては,1,000時間以下の小規模音声ドキュメントを対象としたシステムが動作している。今後,大規模音声ドキュメントを対象にシステム検証できるよう,国内において音声・映像ドキュメントを大量に収蔵する機関と話し合いを行っており,H23年度には大規模音声ドキュメントに対する検証実験を行いたい。
|