研究課題
本研究は、音声信号の処理と画像処理を併用することにより雑音環境下における音声認識の認識率の向上を目指し研究を行っている。音声信号の処理の面では、以前から研究を行っているケプストラム法を基とした簡易的なスペクトラムサブトラクションのような手法で、雑音の影響によりスペクトラムの谷の部分が埋もれてしまう現象を規則的に谷をつけることにより回復し認識率の改善を行ってきた。しかし本手法において一フレームずつ規則的なスペクトルの変形を行うためフレーム間の情報は無視しフレーム方向に不自然なスペクトルとなってしまっていた点を改善するため、画像処理に用いられるウェーブレット変換を用いて周波数およびフレームの両領域同時に平滑化を行うことにより認識率の改善を行ってきた。本年度は、さらなる認識率の向上をねらいスペクトルに規則的に谷を付ける方法の改良と規則的谷を付けた後にウェーブレット変換により平滑化を行う平滑化法の検討とさらに強調法を併用し認識率の改善を試みた。強調法の併用による認識率の向上には更なる検討が必要であるが平滑化によるスペクトルの平坦化などが改善される点や認識率の改善も見られる点から基本的には有効な手法であると考えられる。また、口の動きなど画像データを用いた処理においては、撮影環境や個人差などによる影響が大きく口の動きの安定した抽出が非常に難しく画像情報による本年度の認識法の確立にはいたらなかった。また、口の動きのみによる音声認識は通常会話中の口の変化があまり大きくないことや精度の高い口の動きの抽出などが非常に難しい点などから口の動きなどの画像データのみによる認識法ではなくはじめから音声データの処理と併用した形の認識法の確立を次年度は目指す必要があると考えられる。
すべて 2005 2004
すべて 雑誌論文 (5件)
第14回MAGDAコンファレンス講演論文集
ページ: 88-93
日本音響学会2005年春季研究発表会講演論文集 I
ページ: 103-104
ページ: 105-106
日本AEM学会誌 Vol.12,No.4
ページ: 310-315
The 18th International Congress on Acoustics, ICA2004
ページ: II-1671-II-1674