本年度は、計算機シミュレ-ションによる白色雑音と名古屋駅で収集した実環境の雑音を用いて、特定話者及び不特定話者の数字音声認識を行った。認識手法は我々が提案した参照パタ-ンを用いる方法及び2次元メルケプストラムを用いる認識法である。2次元メルケプストラムは人間の聴覚特性を十分考慮した音声の特徴パラメ-タであり、分析区間内の音声のスペクトルの平均的な特徴とその時間変化情報である動的特徴を同時に表すことが出来る。本研究において、本年度に得られた研究成果は以下の通りである。 1.認識に必要な2次元メルケプストラムの領域の詳細な検討: 音声の動的特徴を表す2次元メルケプストラムの領域を変化させ、静的な特徴との最適な組合せについて検討を行った。その結果、時間方向のスペクトルの変化情報は10Hz以下の成分を用いればよいこと及び静的特徴より動的特徴がより重要であることが明らかとなった。(論文発表) 2.2次元メルケプストラムを用いた不特定話者の雑音下の数字音声認識: 登録していない話者に対しての雑音下での数字音声認識(不特定話者認識)を検討し、特定話者の場合と同様にスペクトルの動的特徴が認識に有効であることを明らかにした。(論文発表) 3.参照パタ-ンのマルチテンプレ-ト化による雑音下での数字音声認識: 1次元メルケプストラムを用いて雑音下での認識に適した参照パタ-ンを作成し、SN比の異なる複数の参照パタ-ンを用いて認識実験を行った。その結果、SN比の異なる2組みの参照パタ-ン(10、3dB)を用いれば、名古屋駅で採集した雑音に対して入力音声のSN比が0dBまで変化しても96%以上の認識率が得られることを明らかにした。(論文発表)今後は、これを2次元メルケプストラムに適用する予定である。
|