研究概要 |
音素セグメンテーションユニットを用いる単語音声認識システムによる認識実験を通して大語彙化に対する問題点を明らかにし,その解決を試みた. (1)本研究の単語音声認識システムは音素セグメンテーションと音素ラベリングを音響音韻処理として行うものなので,大語彙化によってシステムの規模が大きくなることはない. (2)特定話者認識実験で,単語数1845語,4915語の場合の第3位正解率はそれぞれ96.5%,94.5%であり,数万語の場合には90%以下になることも考えられる。正解率が十分高くない原因として音素セグメンテーションのエラーと音素ラベリングのエラーとがある. (3)セグメンテーションのエラーを低減するために,セグメントラティス生成型のマルチセグメンテーション方式を提案し,単語認識率に換算して数パーセントの認識率の向上をはかった. (4)音素ラベリングにおける主なエラーが,出現頻度の少ない音素において起こることをつきとめた.音素ラベリングはマルチレファレンスパターンを用いて行うが,出現頻度の少ない音素に対するレファレンスパターンの数が少なく,不十分であったために音素ラベリングの正確さを低下させることになった.この問題に対し並列音素ラベリング方式を提案し,有効性を確かめた.
|