1999 Fiscal Year Annual Research Report
高い雑音下での画像情報を併用した音声認識手法に関する研究
Project/Area Number |
11650426
|
Research Institution | Tottori University |
Principal Investigator |
小西 亮介 鳥取大学, 工学部, 教授 (00032269)
|
Co-Investigator(Kenkyū-buntansha) |
菅原 一孔 鳥取大学, 工学部, 助教授 (90149948)
|
Keywords | 音声認識 / 高雑音環境 / 唇形状抽出 / 動的輪郭モデル / HMM |
Research Abstract |
これまでの研究の成果により,現在の音声認識技術は不特定話者が話す単語を高い確率で認識できるまでになった.そして不特定話者が話す連続音声を良好に認識する手法について検討が進んでいる.しかしこれらの良好な結果は周囲に雑音の少ない比較的良好な環境で得られるもので,高い雑音が存在する環境では認識率は急激に減少してしまう.このため,スペクトルサブトラクション法やそれを改良した手法,あるいは最小平均2乗誤差推定法などが提案され,ある程度定常的な雑音に対する効果が確認されている.しかし,これらの手法によっても非定常な雑音やパワーの大きな雑音に対しては音声認識性能は大幅に低下してしまう. 本研究計画では周囲の雑音に依存しない音声認識の手法として,画像情報を取り入れた方法について検討を加えた.検討を加えた方法は,唇形状の時間変化を実時間で取り込み,これを音声認識のための補助的な情報として取り入れることにより,高い雑音下での音声認識率を向上させようとするものである.今年度の研究はこれまでの研究成果をもとに,(1)高速で唇形状の変化を取り入れるための画像処理手法の改良,(2)音声に基づく認識候補と唇形状の時間変化を表す画像データに基づき得られた認識候補を統合するための手法,および(3)画像情報に基づくワードスポッティング手法について検討を加えた. そしてこれらの新しい手法を取り入れることにより,実時間で認識処理が可能な音声認識システムを構築した.構築されたシステムによると認識率は高い雑音下においても90%程度の認識率を達成することが可能となった.本研究計画2年目にあたる来年度は,今年度の研究により得られた成果をもとに,さらに高い精度で唇形状の抽出を行うための画像処理手法の改良,ならびに認識手法やクラスタリング手法の改良による,より高い認識率を持つ単語認識システムの構築について検討を加える必要がある.
|
Research Products
(3 results)
-
[Publications] 岸野誠: "画像情報を用いた単語発話区間抽出処理の自動化"計測自動制御学会第16回センシングフォーラム講演論文集. 45-50 (1999)
-
[Publications] 岸野誠: "画像情報を用いた単語発話区間抽出処理の単語認識システムへの応用"電気学会センサシステム応用技術研究会資料. 25-30 (1999)
-
[Publications] 菅原一孔: "画像情報をとり入れた単語認識システムの実時間実現"電子情報通信学会・パターン認識・メディア理解研究会. (発表予定). (2000)