動画像を用いた視聴覚融合音声認識システム

Research Project

Project/Area Number	07780343
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Osaka Prefecture University
Principal Investigator	荻原昭夫大阪府立大学, 工学部, 講師 (60244654)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥900,000 (Direct Cost: ¥900,000) Fiscal Year 1995: ¥900,000 (Direct Cost: ¥900,000)
Keywords	音声認識 / 視聴覚融合 / センサフュージョン / HMM / 動画像 / 視聴覚情報
Research Abstract	本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現への第一段階として,比較的発話時間の短い文章(人間から計算機への一方通行)を対象とした視聴覚融合による音声認識システムを実現する事を目的とし,動画像を用いた視聴覚融合音声認識システムに関する研究を行なった. 本研究で構築を行なった「フルフレーム画像を対象とした視聴覚融合音声認識システム」では,視聴覚情報の入力手段として “音声同期型動画像入力機能を有しているマルチメディアパソコン" を用いて,フルフレーム(30fps,1秒間当たり30フレーム)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,HMM(隠れマルコフモデル)に多次元ベクトル量子化を組み合わせた認識モデル上で,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理を行なう.なお,本システムでは,「視覚情報用(動画像用)HMMにより算出された対数尤度」と「聴覚情報用(音声用)HMMにより算出された対数尤度」とを1次結合するというシンプルかつ効果的な手法により視聴覚融合処理を実現している.本システム用いて音声認識実験を行なった結果, ・母音発声時の音声認識精度の向上・唇の動きが速いために動画像による認識が困難であった子音に対する効果を確認した. さらに,ニューラルネットワークを利用した視聴覚融合処理方式についても検討を進めており,今後は音声認識システムへの実装を試みる予定である. なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.

Report

(1 results)

1995 Annual Research Report

Research Products
(5 results)

All Other

All Publications (5 results)

[Publications] Akira Shintani: "Speech Recognition Method Using Fusion of Auditory and Visual Information" Proceedings of JTC-CSCC'95. 61-64 (1995)
- Related Report
  1995 Annual Research Report
[Publications] 荻原昭夫: "視聴覚融合を用いたHMM音声認識" 電気学会論文誌C. 115. 1317-1324 (1995)
- Related Report
  1995 Annual Research Report
[Publications] 太田正哉: "カオスニューラルネットのダイナミクスと最小値探索" 電気学会情報処理研究会資料(IP-95-40). 89-98 (1995)
- Related Report
  1995 Annual Research Report
[Publications] 井川悟: "フルフレーム・カラー画像を用いた視聴覚融合音声認識" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)
- Related Report
  1995 Annual Research Report
[Publications] 宅和富美男: "カラー情報を用いた顔全体画像からの唇輪郭の抽出-視聴覚融合による音声認識-" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)
- Related Report
  1995 Annual Research Report

動画像を用いた視聴覚融合音声認識システム

Principal Investigator

荻原 昭夫 大阪府立大学, 工学部, 講師 (60244654)

¥900,000 (Direct Cost: ¥900,000)

Report

Research Products

[Publications] Akira Shintani: "Speech Recognition Method Using Fusion of Auditory and Visual Information" Proceedings of JTC-CSCC'95. 61-64 (1995)

Related Report

[Publications] 荻原昭夫: "視聴覚融合を用いたHMM音声認識" 電気学会論文誌C. 115. 1317-1324 (1995)

Related Report

[Publications] 太田正哉: "カオスニューラルネットのダイナミクスと最小値探索" 電気学会 情報処理研究会資料(IP-95-40). 89-98 (1995)

Related Report

[Publications] 井川 悟: "フルフレーム・カラー画像を用いた視聴覚融合音声認識" 1996年 電子情報通信学会総合大会講演論文集. (発表予定). (1996)

Related Report

[Publications] 宅和 富美男: "カラー情報を用いた顔全体画像からの唇輪郭の抽出-視聴覚融合による音声認識-" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)

Related Report

荻原昭夫大阪府立大学, 工学部, 講師 (60244654)

[Publications] 太田正哉: "カオスニューラルネットのダイナミクスと最小値探索" 電気学会情報処理研究会資料(IP-95-40). 89-98 (1995)

[Publications] 井川悟: "フルフレーム・カラー画像を用いた視聴覚融合音声認識" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)

[Publications] 宅和富美男: "カラー情報を用いた顔全体画像からの唇輪郭の抽出-視聴覚融合による音声認識-" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)