研究概要 |
本研究は, 音声強調部と音響モデル・言語モデルなどの音声認識部を含めたハンズフリー音声対話システムを想定し, システム全体の統合的な自律的最適化を行うことを目的とするものである. 音声対話システムは様々な環境で運用されることより, 各環境に応じて最高の音声認識性能を引き出すために, 手作業での調整を余儀なくされている. そこで, 音声強調部の内部パラメータに対応する音声認識率を予測する理論を確立する. さらに, それに基づき, 音声認識率が最も高くなるように内部パラメータを自動的に最適化する. 音声認識性能を左右する要因の一つは「SN比の改善量」であることは以前より広く知られているが, この要素は目的音声に混入される雑音の「量」に関するもので, 「質」に関しては評価していない. 音声認識性能の良し悪しは「SN比の改善量」に加えて, 音声強調後の「雑音の品質」・「音声の品質」によっても決定される. そのため, これら三要素の値を事前に算出することが出来れば, それに対応する音声認識率を予測できると考えられ, かっ最も音声認識率が高くなるような内部パラメータの自動最適化にっながる. これまでに, 私は, 「音声の品質」を評価するための高次統計量についての検討を行ってきた. 目的音声に混入する背景雑音の種類が定常か非定常か, また, SN比の良し悪しによっても音声の統計量を安定的に求める手法は異なることを明らかにした. この結果は, 「音声の品質」を評価する上で安定して統計量を求めることが出来るという意味で大きな成果であり, 今後の研究につながると言える.
|