• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

1999 Fiscal Year Annual Research Report

文間の類似性に基づく言語モデルの評価法

Research Project

Project/Area Number 11780246
Research InstitutionYamagata University

Principal Investigator

大槻 恭士  山形大学, 工学部, 講師 (00250952)

Keywords音声認識 / 文認識 / 言語モデル / perplexity(パープレキシティ) / ハミング距離 / 評価尺度
Research Abstract

音声認織における言語モデルの評価尺度として広く使われているtest set perplexity(情報理論的な平均分岐数,以後PP)には,実際の認識精度との相関が低い場合があるという問題がある.
そこで本研究では,test文Sとハミング距離が1離れた全単語系列中の,Sより尤度の大きい単語系列の割合を,言語モデルの評価尺度として提案する.本尺度は,(1)音響モデルからの情報がない,(2)文認識誤りをハミング距離が1離れたものへの誤りに限定,という前提のもとで文認識系を解析し,文誤認識率を導出した結果得られるものである.
本尺度およびPPと,単語誤り率(WER),文誤り率(SER)の相関を見るため,日本語ディクテーション基本ソフトウェアを用いた文認織実験を行った.言語モデルは,毎日新聞記事データより,作成条件(語彙数など)の異なる7種類を作成し,評価用データは,日本音響学会の新聞記事読み上げ音声コーパスを使用した.
その結果,WERとの相関係数は,語彙数2万の場合,PPで0.40,本尺度で0.86,語彙数5千の場合,PPで0.98,本尺度で0.99,SERとの相関係数は,語彙数2万の場合,PPで0.73,本尺度で0.92,語彙数5千の場合,PPで0.97,本尺度で0.98となり,どの言語モデルの場合でも,PPに比べ本尺度の方が相関が高いことが明らかになった.

URL: 

Published: 2001-10-23   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi