研究概要 |
本研究では,雑音をモデル化する必要がなくどのような雑音にも対処可能な音声認識手法の新しい枠組みを提案する.具体的には,申請者らが提案した音源分離手法を認識規範として,従来の枠組みにとらわれない認識法を提案する. このため,1年目は,提案する手法によって高精度の音声認識が可能かどうかの詳細な議論を行った.提案手法では,認識対象に関する情報をtop-down的に音源分離部へ与え,この情報を用いて分離が完了するかどうかを観測する.比較的定常な楽器音の分離処理ではこの手法は成功しているが,変化の激しい音声に対しても適用可能かどうかの検討を行った.具体的には, (1)音源分離手法の音声分離への拡充,および (2)音声認識への使用・組み込み法について 検討した.その結果, <音源分離手法の音声分離への拡充> 楽器音では音符の長さだけ定常区間が継続するが,音声では定常な区間は存在しない.定常な楽器音から常に変化している音声への音源分離処理部の仕様拡張および分離性能の向上をはかるため,音声分析合成アルゴリズムを用いて定常母音から多数の変形母音を合成し,これらを対象として分離実験を行った.分離は概ね行われている.この結果を生かし,今後,単音節の分離実験を行う予定である. <音声認識への使用・組み込み法の検討> 従来の提案法では,音源分離は時間軸上で行われるが,音声認識のためには周波数時苦情の特徴量を抽出できることが望ましい.このため,従来の提案法を改良し,音声スペクトルを分離抽出可能な手法へと発展させた.母音認識実験の結果,SN比が0dBを超える範囲ではスペクトラムサブトラクション法よりも認識精度は高い,という結果が得られた.今後は単音節の認識実験を行う予定である.
|