2008 Fiscal Year Annual Research Report
ゆっくり喋ると認識されやすい音声認識システムの開発
Project/Area Number |
18700174
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
山本 一公 Toyohashi University of Technology, 工学部, 助教 (40324230)
|
Keywords | 音声認識 / 発話速度変動 / 挿入ペナルティ / 言語重み / 訂正発話 / 発話速度推定 / 対角共分散行列 / 全共分散行列 |
Research Abstract |
現在の音声認識システムにおいて、誤認識は避けられない課題である。誤認識が起きた場合、人間であるユーザは、人間との対話において誤認識が起きた場合と同様に、ゆっくり再発話することで認識してもらおうと試みるが、現在の音声認識システムは学習データの平均的な発話速度から外れた発話速度の音声に対しては認識率が低下してしまう特性があるため、さらに誤認識が起きる悪循環となってしまっている。この問題に対処するために、本研究ではゆっくりと発話された音声の認識率を改善することを目的とした。ゆっくりした発話で多く見られる誤りは単語挿入誤りであるため、認識システムの挿入誤りを制御するパラメータである"挿入ペナルティ"を発話速度に応じて自動的に調整する手法を提案した。発話速度の推定は、音節制約付き連続音素認識結果から母音部分のみを抽出し、母音の平均継続長から算出した。挿入ペナルティは、発話速度が分かっている開発データに対して様々な挿入ペナルティで認識実験を行い、最も認識率が良くなる条件から回帰分析により推定式を求め、これを利用した。また、音響モデル尤度と言語モデル尤度のレンジの違いを補正するパラメータである"言語重み"についても、同様に自動的に調整した。発話速度をコントロールして読み上げた新聞記事に対する認識実験の結果、普通話速(7モーラ/秒)、速い話速(10モーラ/秒)の音声の認識精度を維持したまま、遅い話速(4モーラ/秒)の単語正解精度を、45.6%から76.3%へと大きく改善することができた。また、音声認識精度を上げる手法として、共分散行列のパラメータの効果的な使用方法について検討し、静的特徴と動的特徴の相関を利用することで、効果的に共分散行列のパラメータを削減する方法を開発した。
|