本研究は、隠れマルコフモデル(HMM)に基づく音声認識において、使用環境が学習環境と異なった場合にも認識率の低下が小さな頑健な手法として我々が新しく提案したビタビベイズ予測分類の確立を図るものである。この手法は、環境の違いにより、音素等のモデルがHMMパラメータ空間において広がりを持つと考えることを基本とするもので、本年度は、下記の成果を達成した。 1.使用環境に関するデータが予め得られない場合にも有効な手法として、HMMの広がりを各モデルで均一とした場合について実験的に検討した。離散発声の数字音声データについての基礎的実験に加え、連続発声の数字音声データに種々のレベルの白色雑音を付加したものを認識対象とした実験で、広がりの形状・大きさと方式の有効性との関係を明らかにした。最良点からある範囲の形状・大きさであれば、認識性能は極端に低下することはなく、従来方式より20%〜30%もの認識率の向上が得られている。これは本手法が実用的なものであることを示す結果である。 環境の違いとして、実世界に存在する種々の雑音(25種)、あるいは男女の性差を取り上げて提案手法の有効性を調べた。その結果、いずれの場合にも提案手法の効果を確認したが、工場で収録した雑音などの過渡性に富む雑音や性差の場合には効果が限られた。 3.観測データが与えられた時、順次に、より確からしい事後確率密度関数を推定してビタビベイズ予測分類を行う手法を新しく提案した。事後確立密度関数の推定に際し、1回の学習毎に確率密度の分布の項数が飛躍的に増大して最終的に計算量の爆発を招くという問題があったが、これを、数個の代表的な分布を選択することによって解決した。白色雑音付加と性差の場合について実験を行い、提案方式の従来方式に対する有効性を、認識性能と学習の収束速度の両面について確認した。
|