Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 1987: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
音声認識は実用化の域に達しつつあるが, 雑音の多い環境下での使用が困難であること, 類似音(とくに子音)の判別が依然難しいという問題がある. この問題を克服するため, 本研究では, 音声信号だけでなく唇の動きの情報も併用して音声認識を行なった. 1.口形特徴の抽出 単語を発生している時のビデノ画像から, 口の幅や高さなどの口形特徴が抽出された. このとき, 歯を含めた場合と含めない場合の2つに分けて処理を行なった. 2.音声特徴・口形特徴併用による音声認識 研究のステップの都合上, この場合の口形特徴は安定して求めることのできるX-Yトラッカを使用した. 音声は4KH_2, 12ビットでサンプルされ, 12次までのLPCケプストラム係数およびLPC係数が各24次まで拡張され, 各0次を加えた50次元特徴と登録データ間の非線形時間伸縮を考慮した距離がDP法により計算された. 一方, 話者の前方右約60度の位置に置いたX-Yトラッカ・カメラにより, 下唇の上下の動き, 前後の突き出し量が1/60秒毎に計測された. これらの特徴と登録データとの間の距離も同様に計算された. これらの二つの距離の重み和で単語の識別を行なった. 類似した10単語(KAMAやKANAなど)の認識率は, 音声特徴のみの場合84%, 音声特徴に口形特徴を加えた場合は90%に向上した. 3.今後の課題 口形特徴の効率的抽出法および音声特徴と口形特徴を合わせてDPマッチングを行なう方式を開発したい.
|