2007 Fiscal Year Annual Research Report
ゆっくり喋ると認識されやすい音声認識システムの開発
Project/Area Number |
18700174
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
山本 一公 Toyohashi University of Technology, 工学部, 助教 (40324230)
|
Keywords | 音声認識 / 自然発話音声 / 発話速度変動 / 発音変動 / 音響モデル / 信頼度 / 分布間距離 / 訂正発話 |
Research Abstract |
本研究は「ゆっくり喋ることで認識精度が向上するような音声認識システム」を開発することを目的とする。通常、人間は速い音声よりもゆっくりした音声の方が認識しやすく、話し相手により明確に音声を伝えたい場合にはゆっくり喋る傾向がある。そのため、ゆっくりと発声することで認識精度が向上する音声認識システムは、人間にとって自然なユーザ・インタフェースであると言える。現在の音声認識システムで音響モデルとして広く使われているHMM(隠れマルコフモデル)は優れた音声認識フレームワークであるものの、HMMを用いた音響モデルではゆっくり発話することで認識精度が低下してしまうので、HMMを改良する必要がある。 本年度は、昨年度に引き続き、リスコアリング時に有効な、ゆっくり喋ることで上昇する信頼度尺度の検討を行った。当初想定していた分布間距離をベースとした尺度には有効性が見られなかったため、スペクトル変動度を尺度とする方法に切り替えて検討を行っている。同時に、音響モデルを高精度化する手法として、多次元ガウス分布の共分散行列パラメータについて検討を行った。具体的には、現在一般的に使われている対角または全要素ではなく、相関の大きい部分だけを用いる方法である。対角分布を用いる場合は混合数を上げることで擬似的に相関を扱うが、相関の大きい部分を直接的に扱うことで認識率は向上する。また、全要素に対してはパラメータ利用の効率性という点でアドバンテージがあり、学習データが少ない場合でも有効に働くと考えられる。結果として、今まで無視されていた静的パラメータ(MFCC)と動的パラメータ(ΔMFCC、ΔΔMFCC)の間の相関が大きいことが分かり、認識性能向上への手がかりが得られた。
|