研究概要 |
本研究により,高性能の大語彙単語音声認識システムを実現する上で音素セグメンテーションと音素ラベリングを行う方式が極めて有用であることが確かめられ、実時間動作のハードウェアの実現の見通しが得られた.本研究を通して得られた主な成果,知見等は次の通りである. A.大語彙単語音声認識に対して,音素セグメンテーションと音素ラベリングが極めて重要な役割を果していることを再確認した.本研究の方法,HMMによる方法,ニューラルネットによる方法などによって大語彙単語音声認識に関する予備実験を行い,比較検討したところ,本研究の方法が有効なものであることが確認された. B.本研単語音声認識システムは,大語彙化によってシステムの規模が著しく大きくなることおよびレファレンスモデルの作成や学習が複雑化することはないと予想されたが,このことが確認された. C.特定話者のシステムによる認識実験で,単語数が1845語,4915語の場合の上位3位認識率は、それぞれ,96.5%,94.5%となり2万語の場合の推定値は約90%となった.誤りの主な原因は音素セグメンテーションのエラーと音素ラベリングのエラーによるものであることが確かめられた. D.セグメンテーションのエラーを低減するために,マルチセグメンテーション方式を考案したが,認識率の改善は1%程度で,効果は十分なものではなかった.現在,別の方法を試みている。 E.音素ラベリングのエラーを低減し,システムを不特定話者対応とするために,並列音素ラベリング方式を提案した。認識率の向上,不特定話者対応に対し極めて効果のあるものであることが確認できた. F.現在のシステムの単語認識に必要な処理時は1単語あたり約5秒でなるが,参照単語の予備選択の方法により,約1/3に低減できた.
|