近年ディープラーニングにもとづく音声認識が大きな成果を挙げているが,話し言葉についてはまだ十分な結果は得られていない.認識性能の低下の大きな原因として話者の個人性,多様な音響環境,多様な発話スタイルなどが挙げられる.これらを解決するために適応技術を中心とした手法を開発し話し言葉の認識性能の向上を図ることが本研究の目的である.この目標を達成するため1)クロス適応の高精度化,2)雑音下における音声区間検出の性能向上,3)感情音声認識の性能向上,について検討した. 1)について我々は異なる適応手法を組み合わせることによる相補的な効果を狙ったクロス適応法を提案している.しかしながら高精度な認識結果をベースラインとした場合については検討していなかった.そこで,現時点で最高性能が得られている手法をベースラインとしてクロス適応の検討を行ない有効性を示した.最終的には単語誤り率10.38%を得た. 2)について雑音下音声認識において,音声区間検出(VAD)の精度が重要となる.そこでDNNを使用したVAD性能の向上について検討した.本研究では特に雑音クラスを設定しVADを行なった.評価は映画音声からの音声検出タスクを使用しクラスモデルの有効性を示した. 3)について,まずは基礎的な検討として感情音声認識に関してDNN-HMMを利用することの有効性を示した.次に更なる性能向上を目指し,音響モデル,言語モデルの適応を行った.音響モデルの適応では話者適応,コーパス適応,感情適応,話者+感情適応の4種類について比較実験を行なった.いずれも効果があるが,特に話者適応で良好な結果が得られた.また最終年度は言語モデル適応の検討を行った.Twitterは口語的表現が多く含まれるが,その中から感情表現を含むテキストを選択し適応に利用した.約2000文を使用した適応実験の結果,言語モデル適応の有効性を示した.
|