マルチメディアコンピュータによる視聴覚融合音声認識システム

研究課題

研究課題/領域番号	08780376
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	大阪府立大学
研究代表者	荻原昭夫大阪府立大学, 工学部, 講師 (60244654)
研究期間 (年度)	1996
研究課題ステータス	完了 (1996年度)
配分額 *注記	1,000千円 (直接経費: 1,000千円) 1996年度: 1,000千円 (直接経費: 1,000千円)
キーワード	音声認識 / 視聴覚融合 / センサフュージョン / HMM / マルチメディア / 視聴覚情報 / 動画像 / TDNN
研究概要	本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現を目的とし,視聴覚融合音声認識システムに関する研究を行なった.特に,近年,急速に普及しつつあるマルチメディアコンピュータ(「動画像の表示」や「音響信号の録音・再生」などの機能を有するコンピュータ)上に視聴覚融合音声認識手法を実装することで,特殊な装置を一切用いることなく音声認識システムを実現することを試みた. 本研究で構築を行なった「マルチメディアコンピュータによる視聴覚融合音声認識システム」では,マルチメディアコンピュータが有している“音声同期型動画像入力機能"を用いてフルフレーム(30fps, 1秒間当たり30フレーム)・フルカラー(24 bit color)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理をマルチメディアコンピュータ上で行なう.なお,視聴覚融合処理については,「1次結合によるHMM(隠れマルコフモデル)視聴覚融合手法」と「TDNN(時間遅れニューラルネットワーク)による視聴覚融合手法」の2種類の手法により実現している. 本システム用いて音声認識実験を行なった結果, ・唇の動きが速いために認識が困難であった子音に対する効果・マルチメディアコンピュータ上への視聴覚融合音声認識システムの実装可能性を確認した. さらに,認識率を改善する方策として,口唇形状をより反映する視覚特徴量の抽出法について検討を進めている. なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.

報告書

(1件)

1996 実績報告書

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] 荻原昭夫: "フルフレーム・フルカラー画像を用いた視聴覚融合音声認識" 第11回ディジタル信号処理シンポジウム講演論文集. 297-302 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会英文論文誌(EA). E79-A. 1836-1840 (1996)
- 関連する報告書
  1996 実績報告書
[文献書誌] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)
- 関連する報告書
  1996 実績報告書
[文献書誌] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会英文論文誌(EA). (印刷中). (1997)
- 関連する報告書
  1996 実績報告書

マルチメディアコンピュータによる視聴覚融合音声認識システム

研究代表者

荻原 昭夫 大阪府立大学, 工学部, 講師 (60244654)

1,000千円 (直接経費: 1,000千円)

報告書

研究成果

[文献書誌] 荻原昭夫: "フルフレーム・フルカラー画像を用いた視聴覚融合音声認識" 第11回ディジタル信号処理シンポジウム講演論文集. 297-302 (1996)

関連する報告書

[文献書誌] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会 英文論文誌(EA). E79-A. 1836-1840 (1996)

関連する報告書

[文献書誌] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会 総合大会講演論文集. (発表予定). (1997)

関連する報告書

[文献書誌] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会 英文論文誌(EA). (印刷中). (1997)

関連する報告書

荻原昭夫大阪府立大学, 工学部, 講師 (60244654)

[文献書誌] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会英文論文誌(EA). E79-A. 1836-1840 (1996)

[文献書誌] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)

[文献書誌] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会英文論文誌(EA). (印刷中). (1997)