画像情報を利用した高い雑音下での音声認識に関する研究

Research Project

Project/Area Number	09878069
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Tottori University
Principal Investigator	小西亮介鳥取大学, 工学部, 教授 (00032269)
Co-Investigator(Kenkyū-buntansha)	菅原一孔鳥取大学, 工学部, 助教授 (90149948)
Project Period (FY)	1997 – 1998
Project Status	Completed (Fiscal Year 1998)
Budget Amount *help	¥1,600,000 (Direct Cost: ¥1,600,000) Fiscal Year 1998: ¥600,000 (Direct Cost: ¥600,000) Fiscal Year 1997: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	音声認識 / 高雑音環境 / 唇形状抽出 / 動的輪郭モデル / HMM / 高雅音 / ニューラルネットワーク
Research Abstract	音声認識の研究は各所で精力的に行われ,その結果不特定話者が話す単語を高い確率で認識できるようになった.現在は不特定話者が話す連続音声を良好に認識する手法について検討が進んでいる.しかしこれらの良好な結果は周囲に雑音の少ない比較的良好な環境で得られるもので,高い雑音が存在する環境では認識率は急激に減少してしまう.このため,スペクトルサブトラクション法やそれを改良した手法,あるいは最小平均2乗誤差推定法などが提案され,ある程度定常的な雑音に対する効果が確認されている.しかし,これらの手法によっても非定常な雑音やパワーの大きな雑音に対しては音声認識性能は大幅に低下してしまう. 本研究計画では唇形状の時間変化を実時間で取り込み,これを音声認識のための補助的な情報として取り入れることにより,高い雑音下での音声認識率を向上させる新しい手法について検討を加えた.具体的には,(1)高速で唇形状の変化を取り入れるための画像処理手法,(2)音声に基づく認識候補と唇形状の時間変化を表す画像データに基づき得られた認識候補を統合するための手法,について検討を加え,それぞれについて,(1)振動項を付加した新しい動的輪郭モデル,(2)主成分分析手法に基づく新しい統合手法を考案した. そしてこれらの新しい手法を取り入れることにより,短時間で認識処理が可能な音声認識システムを構築した.構築されたシステムによると認識率は高い雑音下においても80%程度の認識率を達成することが可能であり,その認識に要する時間はおおよそ20秒程度と大変高速なものが実現された. 今後は本研究計画により得られた成果をもとに,画像情報に基づくワードスポッティング手法の確立,ならびに認識手法やクラスタリング手法の改良による,より高い認識率を持つ単語認識システムの開発について検討を加える必要がある.

Report

(2 results)

1998 Annual Research Report
1997 Annual Research Report

Research Products
(10 results)

All Other

All Publications (10 results)

[Publications] 菅原一孔: "振動項を持つ動的輪郭モデル" 電子情報通信学会論文誌. J80-DII・12. 3232-3235 (1997)
- Related Report
  1998 Annual Research Report
[Publications] 新地俊幹: "動的輪郭モデルによる唇形状抽出とその母音認識への応用について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 43-48 (1997)
- Related Report
  1998 Annual Research Report
[Publications] 新地俊幹: "音声認識のための動的輪郭モデルによる唇の形状抽出について" 第36回計測自動制御学会学術講演会論文集. 665-666 (1997)
- Related Report
  1998 Annual Research Report
[Publications] 李咏梅: "唇形状データに基づく単語認識システムについて." 第37回計測自動制御学会学術講演会論文集. (1998)
- Related Report
  1998 Annual Research Report
[Publications] Toshimi Shinchi: "Uowel Recognition According to the Lip Shapes by using Neural Network." Proc.of 1998.IEEE World Cong.on Computational Intelligence. 1772-177 (1998)
- Related Report
  1998 Annual Research Report
[Publications] 新地俊幹: "画像情報と音声情報を併用した単語認識システムの構築について" 電子情報通信学会技術研究報告.CAS18・66. 37-44 (1999)
- Related Report
  1998 Annual Research Report
[Publications] 菅原一孔: "振動項を持つ動的輪郭モデル" 電子情報通信学会論文誌. J80-DII・12. 3232-3235 (1997)
- Related Report
  1997 Annual Research Report
[Publications] 新地俊幹: "動的輪郭モデルによる唇形状抽出とその母音認識への応用について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 43-48 (1997)
- Related Report
  1997 Annual Research Report
[Publications] 山本久範: "適応的原画像強調のためのパラメータの自動設定について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 657-662 (1997)
- Related Report
  1997 Annual Research Report
[Publications] Toshimi Shinchi: "Vowel Recognition Aceording to Lip Shapes by Using Neural Network" Prec.of 1998 IEEE International Joint Conference on Neural Networks.(未定). (1998)
- Related Report
  1997 Annual Research Report

画像情報を利用した高い雑音下での音声認識に関する研究

Principal Investigator

小西 亮介 鳥取大学, 工学部, 教授 (00032269)

¥1,600,000 (Direct Cost: ¥1,600,000)

Report

Research Products

[Publications] 菅原一孔: "振動項を持つ動的輪郭モデル" 電子情報通信学会論文誌. J80-DII・12. 3232-3235 (1997)

Related Report

[Publications] 新地 俊幹: "動的輪郭モデルによる唇形状抽出とその母音認識への応用について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 43-48 (1997)

Related Report

[Publications] 新地 俊幹: "音声認識のための動的輪郭モデルによる唇の形状抽出について" 第36回計測自動制御学会学術講演会論文集. 665-666 (1997)

Related Report

[Publications] 李咏梅: "唇形状データに基づく単語認識システムについて." 第37回計測自動制御学会学術講演会論文集. (1998)

Related Report

[Publications] Toshimi Shinchi: "Uowel Recognition According to the Lip Shapes by using Neural Network." Proc.of 1998.IEEE World Cong.on Computational Intelligence. 1772-177 (1998)

Related Report

[Publications] 新地 俊幹: "画像情報と音声情報を併用した単語認識システムの構築について" 電子情報通信学会 技術研究報告.CAS18・66. 37-44 (1999)

Related Report

[Publications] 菅原一孔: "振動項を持つ動的輪郭モデル" 電子情報通信学会論文誌. J80-DII・12. 3232-3235 (1997)

Related Report

[Publications] 新地俊幹: "動的輪郭モデルによる唇形状抽出とその母音認識への応用について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 43-48 (1997)

Related Report

[Publications] 山本久範: "適応的原画像強調のためのパラメータの自動設定について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 657-662 (1997)

Related Report

[Publications] Toshimi Shinchi: "Vowel Recognition Aceording to Lip Shapes by Using Neural Network" Prec.of 1998 IEEE International Joint Conference on Neural Networks.(未定). (1998)

Related Report

小西亮介鳥取大学, 工学部, 教授 (00032269)

[Publications] 新地俊幹: "動的輪郭モデルによる唇形状抽出とその母音認識への応用について" 電子情報通信学会第12回ディジタル信号処理シンポジウム講演論文集. 43-48 (1997)

[Publications] 新地俊幹: "音声認識のための動的輪郭モデルによる唇の形状抽出について" 第36回計測自動制御学会学術講演会論文集. 665-666 (1997)

[Publications] 新地俊幹: "画像情報と音声情報を併用した単語認識システムの構築について" 電子情報通信学会技術研究報告.CAS18・66. 37-44 (1999)