Research Abstract |
音声認織における言語モデルの評価尺度として広く使われているtest set perplexity(情報理論的な平均分岐数,以後PP)には,実際の認識精度との相関が低い場合があるという問題がある. そこで本研究では,test文Sとハミング距離が1離れた全単語系列中の,Sより尤度の大きい単語系列の割合を,言語モデルの評価尺度として提案する.本尺度は,(1)音響モデルからの情報がない,(2)文認識誤りをハミング距離が1離れたものへの誤りに限定,という前提のもとで文認識系を解析し,文誤認識率を導出した結果得られるものである. 本尺度およびPPと,単語誤り率(WER),文誤り率(SER)の相関を見るため,日本語ディクテーション基本ソフトウェアを用いた文認織実験を行った.言語モデルは,毎日新聞記事データより,作成条件(語彙数など)の異なる7種類を作成し,評価用データは,日本音響学会の新聞記事読み上げ音声コーパスを使用した. その結果,WERとの相関係数は,語彙数2万の場合,PPで0.40,本尺度で0.86,語彙数5千の場合,PPで0.98,本尺度で0.99,SERとの相関係数は,語彙数2万の場合,PPで0.73,本尺度で0.92,語彙数5千の場合,PPで0.97,本尺度で0.98となり,どの言語モデルの場合でも,PPに比べ本尺度の方が相関が高いことが明らかになった.
|