研究概要 |
本研究では,話者や雑音などの変動を教師なしで逐次的に適応する手法として,強化学習を用いた大語彙連続音声認識手法について検討を行った. 強化学習では,実行した行動に対して報酬が得られ,その報酬を最大化するような方策を学習する理論であり,行動と状態,行動を実行したことによる状態の価値,報酬といったものを定義する必要がある.本研究では,環境への逐次適応としてMAP推定による手法に着目し,音響モデルのパラメータに対する適応の割合を行動とした.具体的には,11種類のMAP推定における重み係数を行動として定義した.また,環境の変化を初期モデルと適応モデルとの尤度比により表現することで,Q-learningにより行動の価値を推定した.その際,尤度比の値を4つの領域に離散化することで状態を定義した.これらに基づいて,環境に応じた適応の度合いを学習した. 従来の適応法では,MAP推定における適応の割合を環境に応じて実験的に決定されていた.それに対して,本研究では環境に応じてMAP推定における最適な適応の割合を強化学習により自動的に学習する枠組みを実現した. 日本語話し言葉コーパスの38講演を対象に,Q-learningによるMAP推定の適応割合の自動学習を行った.その結果,尤度比が大きく環境の変化が小さい状態では適応の割合が小さく,尤度比が小さく環境の変化が大きい状態では適応の割合が大きかった.したがって,状態に応じて適切な行動が学習されていることが明らかとなった.また,提案手法により学習された状態価値が最大となる行動は,認識率が最大となったときのMAP推定の重み係数とほぼ一致した.さらに,学習データと異なる10講演で認識実験を行った結果,学習データで認識率が最大となったときのMAP推定の重みによる従来の適応手法と比べて,約65%とほぼ同等の単語認識率が得られた.また,音素認識率では従来が77.8%に対して,提案手法では78.6%と精度の改善が得られ,提案手法の有効性を確認することができた.
|