日本語は語彙レベルの韻律情報(単語アクセント)が,孤立発声時と文音声発声時とでは異なる。複数出力される音声認識仮説の妥当性を再評価するリランキング処理において,予測される(変形後の)語彙レベル韻律と,実際に観測された韻律とを比較することで,精度向上が期待できる。種々の検討の結果,任意テキスト(認識仮説)に対して語彙韻律を予測するモジュール,及び,リランキング処理の実装は完了したが,観測された韻律に対して正しくアクセント核位置を検出する処理系の実装が極めて困難であることがわかった。最終的には準韻律的特徴と解釈できる音声の構造的表象に基づくリランキングを実装し,音声認識精度向上を実現した。
|