1997 Fiscal Year Annual Research Report

モデルの広がりを考慮した頑健な音声認識手法の研究

Research Project

Project/Area Number	09878065
Research Institution	The University of Tokyo
Principal Investigator	広瀬啓吉東京大学, 大学院・工学系研究科, 教授 (50111472)
Keywords	隠れマルコフモデル / 頑健な音声認識 / ビタビベイズ予測分類 / 雑音 / 性差 / 順次ベイズ学習 / 事後確率密度関数 / 学習
Research Abstract	本研究は、隠れマルコフモデル(HMM)に基づく音声認識において、使用環境が学習環境と異なった場合にも認識率の低下が小さな頑健な手法として我々が新しく提案したビタビベイズ予測分類の確立を図るものである。この手法は、環境の違いにより、音素等のモデルがHMMパラメータ空間において広がりを持つと考えることを基本とするもので、本年度は、下記の成果を達成した。 1.使用環境に関するデータが予め得られない場合にも有効な手法として、HMMの広がりを各モデルで均一とした場合について実験的に検討した。離散発声の数字音声データについての基礎的実験に加え、連続発声の数字音声データに種々のレベルの白色雑音を付加したものを認識対象とした実験で、広がりの形状・大きさと方式の有効性との関係を明らかにした。最良点からある範囲の形状・大きさであれば、認識性能は極端に低下することはなく、従来方式より20%〜30%もの認識率の向上が得られている。これは本手法が実用的なものであることを示す結果である。環境の違いとして、実世界に存在する種々の雑音(25種)、あるいは男女の性差を取り上げて提案手法の有効性を調べた。その結果、いずれの場合にも提案手法の効果を確認したが、工場で収録した雑音などの過渡性に富む雑音や性差の場合には効果が限られた。 3.観測データが与えられた時、順次に、より確からしい事後確率密度関数を推定してビタビベイズ予測分類を行う手法を新しく提案した。事後確立密度関数の推定に際し、1回の学習毎に確率密度の分布の項数が飛躍的に増大して最終的に計算量の爆発を招くという問題があったが、これを、数個の代表的な分布を選択することによって解決した。白色雑音付加と性差の場合について実験を行い、提案方式の従来方式に対する有効性を、認識性能と学習の収束速度の両面について確認した。

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] 江輝: "Use of less-informative Bayesian predictive classification for noisy speech recognition" Proc.1^<st> China-Japan Workshop on Spoken Language Processing. 169-174 (1997)
[Publications] 江輝: "Robust speech recognition based on Viterbi Bayesian predictive classification" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. 2. 1551-1554 (1997)
[Publications] 江輝: "Sequential Bayesian learning of CDHMM based on finite mixture approximation of its prior/posterior density" Proc.IEEE Automatic Speech Recognition Workshop. 373-380 (1997)
[Publications] 江輝: "Improving Viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. (発表予定). (1998)

1997 Fiscal Year Annual Research Report

モデルの広がりを考慮した頑健な音声認識手法の研究

Principal Investigator

広瀬 啓吉 東京大学, 大学院・工学系研究科, 教授 (50111472)

Research Products

[Publications] 江輝: "Use of less-informative Bayesian predictive classification for noisy speech recognition" Proc.1^<st> China-Japan Workshop on Spoken Language Processing. 169-174 (1997)

[Publications] 江輝: "Robust speech recognition based on Viterbi Bayesian predictive classification" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. 2. 1551-1554 (1997)

[Publications] 江輝: "Sequential Bayesian learning of CDHMM based on finite mixture approximation of its prior/posterior density" Proc.IEEE Automatic Speech Recognition Workshop. 373-380 (1997)

[Publications] 江輝: "Improving Viterbi Bayesian predictive classification via sequential Bayesian learning in robust speech recognition" Proc.IEEE International Conference on Acoustics,Speech,& Signal Processing. (発表予定). (1998)

広瀬啓吉東京大学, 大学院・工学系研究科, 教授 (50111472)