研究概要 |
本研究では,雑音をモデル化する必要がなくどのような雑音にも対処可能な音声認識手法の新しい枠組みを提案する.具体的には,申請者らが提案した音源分離手法を認識規範として,従来の枠組みにとらわれない認識法を提案する.このため,1年目は,提案する手法によって高精度の音声認識が可能かどうかの詳細な議論を行った.提案手法では,認識対象に関する情報をtop-down的に音源分離部へ与え,この情報を用いて分離が完了するかどうかを観測する.比較的定常な楽器音の分離処理ではこの手法は成功しているが,母音系列に対しても適用可能かどうかの検討を行った.その結果,音声認識に使用可能であるという結論を得た. これを受けて2年目は,変化の激しい音声,特に単語に対して認識が行えるかどうかについて,検討した.具体的には (1)音源分離手法の子音を含む音声分離への拡充,および (2)音声認識への使用・組み込み法について 検討した.その結果, <音源分離手法の子音を含む音声認識への拡充> 昨年度の雑音中の母音認識実験の結果を受けて,次の課題として子音を含む音声,特に単語の認識について検討した.周波数軸上でスペクトルの分離抽出を行うだけではなく,時間-周波数空間においてスペクトルを分離抽出することを試み,これを単語認識に応用した結果,従来法であるスペクトルサブトラクション法とか音響モデル適応法に比較して誤り率が数十%減少した.この結果を生かし,今後は単語数を増やして実験を行う予定である. <音声認識への使用・組み込み法の検討> 雑音環境中での未知単語あるいは任意の文章の認識を指向して,top-down的に与える認識対象に関する情報を自動的に生成する方法について検討を行った.生成のための学習パターン数がまだ少ないため,満足な生成は行えていないが,問題点は明確化されたので,今後,問題点の克服および実装を行う予定である.
|