1. 音響モデルの高精度化による性能向上: 話し言葉を対象とする大語彙連続音声認識(LVCSR)システムの高性能化において特に効果があると考えられる,音響モデルの精度向上の検討を行った.具体的には話者性への対処のため話者クラスモデルについて検討を行った.従来話者クラスタリングを行う場合,1話者が複数のクラスに所属することを認めない方法で検討を行っていたが,この方法ではクラス数を増加した場合,1クラスに用いることのできる学習データ量が減少し,逆に性能が劣化するという問題があった.この問題に対処するために複数クラスへの所属を認め話者クラスモデルを作成したところ,LVCSRにおいて非常に効果が高いことが分かった. 2.システム統合による性能向上: LVCSRで性能向上を図るための一つの手段として,システム統合が挙げられる.複数の性質の異なる認識システムの認識結果を統合する手法であり,CNCやROVERなどの方式が提案されている.本研究では,従来あまり検討されていない,時間情報も利用できる単語グラフ統合を検討した.上記話者クラスモデルを複数使用し単語グラフ統合を行うことにより性能が向上する可能性を見出すことができた. 3.モデル適応の検討: 教師なしモデル適応の検討を行った.この適応は音響モデルに対する適応と言語モデルに対する適応の2つが考えられるが,今年度は特に言語モデルに対する適応について検討を行った.音響モデル適応で用いられているクロスバリデーション適応を言語モデル適応に利用することにより性能向上が図れることが分った.この場合繰り返し適応が有効であり,かつ適応回数ごとに言語重みや挿入ペナルティを最適化すると,更に性能向上が得られることが分った.また雑音下音声認識に関し,ヒストグラム同等化法の改良を行い認識性能が向上することを確認した.
|