様々な応用をもつ混合ガウス分布の新しい最適化手法である効率的なクロスバリデーション(CV)を用いた最適化法法の提案を行った。提案アルゴリズムは十分統計量を用いることで効率的に動作し、大規模なモデルに適用可能である特徴がある。さらに、CV手法を拡張したAggregated CV(AgCV)法およびAgCV法を混合ガウス分布の最適化に応用する手法の提案を行なった。AgCV最適化法も十分統計量を用いることで高速に動作する。日本語話し言葉コーパスを用いた大語彙連続音声認識実験において、CV法およびAgCV法どちらを用いた場合もモデルサイズを自動決定しつつ認識性能が向上すること、CV法よりもAgCV法の方がより高い認識率得られることを示した。 また、教師無し適応における適応化性能を向上させる目的で、CVおよびバギングに似た手法を教師無しバッチ適応の枠組に組み込んだ教師無しCV適応法および教師無し集合適応法の提案を行なった。教師なしバッチ適応ではアルゴリズム内部で認識器を動作させることで認識仮説を生成し、それをもとにモデルパラメタの適応化を行うが、仮説に含まれる認識誤りによる適応化性能の低下が問題であった。提案手法ではデータ駆動的手法によりその影響を大幅に低減することができる。また、提案アルゴリズムはMLLR音響モデル適応化手法のような一般的な適応化技術の適用方法に関するものであり、それら元とする適応手法の詳細には基本的に依存しない一般性がある。実験では、提案する教師無しCV適応法および教師無し集合適応法を日本語話し言葉コーパスの学会講演音声認識に適用し、従来適応法と比較して大幅に適応化性能が向上することを示した。
|