Research Abstract |
近年のモデルに基づく音声認識システムにおいては,認識しようとする対象(タスク)をどれだけ正確にモデル化するかによって認識性能は大きく左右される.特に単語などの並びを規定する言語モデルの良し悪しは,文音声認識システムの成否の鍵と言って過言ではない.この言語モデルの精度の良さを測る尺度として,情報理論的な意味での平均分岐数であるパープレキシティが広く用いられているが,実際の認識性能との相関が低い場合があることが最近指摘されている. そこで本研究では,タスク文とハミング距離が1だけ離れた(つまり1単語だけ異なる)全ての単語系列に占める,言語モデルによりタスク文より高い尤度を与えられるものの割合を,パープレキシティに代わる言語モデルの評価尺度として提案した.これは,音響モデルからの情報を無視し,文認識誤りを1単語だけ異なるものに限定した場合の文誤認識率の理論値であり,誤り単語の前後(コンテキスト)に対する言語尤度の比較に基づく非常に単純な計算によって求めることが可能である. 新聞記事読み上げ音声の認識実験を行い,単語誤り率との相関について,提案する尺度とパープレキシティの比較を行った.言語モデルは,大量の新聞記事コーパスから作成された高精度なモデルと,精度の低いモデルを少量の新聞記事コーパスにより適応させた適応言語モデル計47種類を用いた.高精度なモデルと適応言語モデルを分けて比較した場合,提案する尺度とパープレキシティには大きな差は見られなかったが,全ての言語モデルにおける比較では,パープレキシティでは両モデルを統一的に説明することができなかったのに対し,提案する尺度は全モデルを通じて相関は良好であったことから,異種の言語モデルの比較などをする場合には,誤認識率から直接導出された提案尺度の方が適していることがわかった.
|