研究概要 |
本研究では、複合語の認識を対象として認識単位が異なる複数の認識器を併用することで、認識結果の信頼度を推定する手法について検討を行った。カーナビの目的地設定をタスクとして、地名を形態素解析し得られた形態素単位、地名全体(「同志社大学」など)、地名を名称(「同志社」など)と属性(「大学」など)に分割した単位の3つのパターンでN-gramと文法による音声認識器を構築した。これらの認識器から得られる認識結果の信頼度を推定するための尺度として、単語事後確率、音響尤度、言語尤度、認識器間の認識結果の一致度と音節数差を用いた。これらの信頼度尺度をもとに、どの認識単位の認識器の組み合わせが最も認識結果の信頼度を推定するのに最適であるかを明らかにするために、認識単位の異なる認識器を2つずつペアにして、先ほどの信頼度尺度を特徴量としてSupport Vector Machineによる認識結果の成否を学習し判別する手法を提案した。認識対象は10,000地名で、10名の被験者が100種類の地名を4つの言い回しで発話した4,000データを実験に用い、交差検証法により学習データと認識データの組み合わせを変えて実験を行った。デコーダにはJulius4.1.2を用いた。実験を行った結果、形態素単位N-gramで85.8%、名称・属性単位N-gramで87.4%、地名単位文法で88.1%の認識結果が得られた。それに対して、提案手法により形態素単位N-gramと地名単位文法の組み合わせにおいて、89.6%の最も高い認識精度が得られた。したがって、通常の単体での認識器に比べて、認識単位の異なる認識器を組み合わせて得られた信頼度尺度により認識精度を改善することができ、提案手法の有効性を示すことができた。
|