Budget Amount *help |
¥3,200,000 (Direct Cost: ¥3,200,000)
Fiscal Year 2007: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2006: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2005: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Research Abstract |
本研究では,雑音をモデル化する必要がなくどのような雑音にも対処可能な音声認識手法の新しい枠組みを提案する。具体的には,申請者らが提案した音源分離手法を認識規範として,従来の枠組みにとらわれない認識法を提案する。 このため,1年目は,提案する手法によって高精度の音声認識が可能かどうかの詳細な議論を行った。提案手法では,認識対象に関する情報をtop-down的に音源分離部へ与え,この情報を用いて分離が完了する(認識が行える)かどうかを観測する。比較的定常な楽器音の分離処理ではこの手法は成功しているが,母音系列に対しても適用可能かどうかの検討を行った。その結果,音声認識に使用可能であるという結論を得た。 2年目は,変化の激しい音声,特に単語に対して認識が行えるかどうかについて検討した。その結果,従来法であるスペクトルサブトラクション法とか音響モデル適応法に比較して誤り率が数十%減少した。 これらを受けて,最終年度である本年度は,提案手法の有効性を検証するために,定常、非定常雑音環境で日本語数字認識を実施した。現有の手法である雑音抑圧前処理,および,参照パターン適応による認識結果との比較を行った結果,提案手法を用いたASRシステムは,どの雑音環境においても既存の手法の認識率を上回った。これは,提案手法が選択的音源分離を評価して得られた目的音の存在確度を用いて認識するため,また,提案手法が雑音モデルを一切用いていないためと考えられる。このことは,提案手法が様々な雑音環境で頑健に認識できる可能性があり,ASRシステムの頑健性向上の手法として有益である事を示すものである。
|