• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

動画像を用いた視聴覚融合音声認識システム

研究課題

研究課題/領域番号 07780343
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関大阪府立大学

研究代表者

荻原 昭夫  大阪府立大学, 工学部, 講師 (60244654)

研究期間 (年度) 1995
研究課題ステータス 完了 (1995年度)
配分額 *注記
900千円 (直接経費: 900千円)
1995年度: 900千円 (直接経費: 900千円)
キーワード音声認識 / 視聴覚融合 / センサフュージョン / HMM / 動画像 / 視聴覚情報
研究概要

本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現への第一段階として,比較的発話時間の短い文章(人間から計算機への一方通行)を対象とした視聴覚融合による音声認識システムを実現する事を目的とし,動画像を用いた視聴覚融合音声認識システムに関する研究を行なった.
本研究で構築を行なった「フルフレーム画像を対象とした視聴覚融合音声認識システム」では,視聴覚情報の入力手段として “音声同期型動画像入力機能を有しているマルチメディアパソコン" を用いて,フルフレーム(30fps,1秒間当たり30フレーム)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,HMM(隠れマルコフモデル)に多次元ベクトル量子化を組み合わせた認識モデル上で,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理を行なう.なお,本システムでは,「視覚情報用(動画像用)HMMにより算出された対数尤度」と「聴覚情報用(音声用)HMMにより算出された対数尤度」とを1次結合するというシンプルかつ効果的な手法により視聴覚融合処理を実現している.本システム用いて音声認識実験を行なった結果,
・母音発声時の音声認識精度の向上
・唇の動きが速いために動画像による認識が困難であった子音に対する効果
を確認した.
さらに,ニューラルネットワークを利用した視聴覚融合処理方式についても検討を進めており,今後は音声認識システムへの実装を試みる予定である.
なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.

報告書

(1件)
  • 1995 実績報告書
  • 研究成果

    (5件)

すべて その他

すべて 文献書誌 (5件)

  • [文献書誌] Akira Shintani: "Speech Recognition Method Using Fusion of Auditory and Visual Information" Proceedings of JTC-CSCC'95. 61-64 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 荻原昭夫: "視聴覚融合を用いたHMM音声認識" 電気学会論文誌C. 115. 1317-1324 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 太田正哉: "カオスニューラルネットのダイナミクスと最小値探索" 電気学会 情報処理研究会資料(IP-95-40). 89-98 (1995)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 井川 悟: "フルフレーム・カラー画像を用いた視聴覚融合音声認識" 1996年 電子情報通信学会総合大会講演論文集. (発表予定). (1996)

    • 関連する報告書
      1995 実績報告書
  • [文献書誌] 宅和 富美男: "カラー情報を用いた顔全体画像からの唇輪郭の抽出-視聴覚融合による音声認識-" 1996年電子情報通信学会総合大会講演論文集. (発表予定). (1996)

    • 関連する報告書
      1995 実績報告書

URL: 

公開日: 1995-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi