本研究では、雑音下での単語音声の認識率の向上を目標として、計算機シミュレ-ションによる白色雑音と名古屋駅で収集した実環境の雑音を用いて、特定話者及び不特定話者の数字音声認識を行った。認識手法は我々が提案した2次元メルケプストラムを用いる認識法である。2次元メルケプストラムは人間の聴覚特性を十分考慮した音声の特徴パラメ-タであり、分析区画内の音声のスペクトルの平均的な特徴とその時間変化情報である動的特徴を持っている。本研究において、得られた研究成果及び知見は以下の通りである。 1.2次元メルケプストラムを用いる音声の分析合成系の構成及び評価: 2次元メルケプストラムを用いる音声の分析合成系を構成法を示し、合成音声の品質から音声合成に必要な2次元メルケプストラムの特徴領域を検討した。その結果、10Hz程度までのスペクトルの時間変化情報が必要であることが明らかとなった。(以上論文発表) 2.雑音のSN比の変動に強い参照パタ-ンの作成法の検討: 本研究で提案した参照パタ-ンは、登録音声の時間波形に認識環境下の雑音波形を時間領域で付加し2次元メルケプストラム分析したものである。この参照パタ-ンを利用することにより、入力音声のSN比の変動に強い参照パタ-ンを得ることができることを明らかにした。(以上論文発表) 3.入力音声のSN比の変動に強い認識距離尺度の検討: 本研究では、2次元メルケプストラムの平均的特徴より動的特徴を重要視した距離尺度を提案し、従来の1次元的なメルケプストラムに比べ本方法が特にSN比の低い低品質の単語音声に有効であることを示した。更に、適当なリフタリング操作により低品質の音声に対する認識率の向上が可能となることを明らかにした。(以上論文発表)
|