WFSTによる音声認識デコーダの機能の高度化と、多様な目的に適用可能なフレキシブルデコーダの実現と応用を図り、下記の種々の実績を上げた。 1.音声・非音声特徴を組み込んだデコーダの改良と評価:雑音環壌下で頑健に動作する音声認識を実現するため、音声・非音声の度合いを示すスコアを仮説評価スコアに組み込んだデコーダの改良を進め、標準的なデータベースを用いた評価実験により、提案法の有効性を確認した。 2.複数言語混在音声の認識への適用:インドネシア語の音声認識において、英語とインドネシア語が文間、あるいは文内で入れ替わる状況(code-switching)に対応するため、code-switching言語モデルと、単独の言語の言語モデルを組み合わせる2種類の方法を検討し、それぞれ認識タスクの特徴に対応して特長があることが確認された。 3.音声認識誤り訂正の容易なインタフェースの検討:音声認識を用いた入力インタフェースにおいて、ユーザが認識結果候補を参照しながら逐次的に誤りを訂正する過程で、更新された言語モデルを用いて、候補単語リスト中での正しい単語のランクを自動的に上げることにより、誤り訂正を容易にする方法を提案し、その有効性を実験的に確認した。 4.眼電位入力インタフェースへの適用:筋委縮性側索硬化症(ALS)において、眼球運動だけが最後まで障害されないことに基づき、眼電位を用いて眼球動作を認識する方法について検討した。複数電極からの電位入力に対して音声認識デコーダを用いた認識実験を行い、眼電位を用いたコミュニケーションの可能性を確認した。 5.デコーダの公開:開発したT3音声認識デコーダについて、NICTから国内の研究者への公開を進め、ソースコードの公開、さらに海外研究者への公開を可能とした。
|