1996 Fiscal Year Annual Research Report

マルチメディアコンピュータによる視聴覚融合音声認識システム

Research Project

Project/Area Number	08780376
Research Institution	Osaka Prefecture University
Principal Investigator	荻原昭夫大阪府立大学, 工学部, 講師 (60244654)
Keywords	音声認識 / 視聴覚融合 / センサフュージョン / HMM / マルチメディア / 視聴覚情報 / 動画像 / TDNN
Research Abstract	本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現を目的とし,視聴覚融合音声認識システムに関する研究を行なった.特に,近年,急速に普及しつつあるマルチメディアコンピュータ(「動画像の表示」や「音響信号の録音・再生」などの機能を有するコンピュータ)上に視聴覚融合音声認識手法を実装することで,特殊な装置を一切用いることなく音声認識システムを実現することを試みた. 本研究で構築を行なった「マルチメディアコンピュータによる視聴覚融合音声認識システム」では,マルチメディアコンピュータが有している“音声同期型動画像入力機能"を用いてフルフレーム(30fps, 1秒間当たり30フレーム)・フルカラー(24 bit color)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理をマルチメディアコンピュータ上で行なう.なお,視聴覚融合処理については,「1次結合によるHMM(隠れマルコフモデル)視聴覚融合手法」と「TDNN(時間遅れニューラルネットワーク)による視聴覚融合手法」の2種類の手法により実現している. 本システム用いて音声認識実験を行なった結果, ・唇の動きが速いために認識が困難であった子音に対する効果・マルチメディアコンピュータ上への視聴覚融合音声認識システムの実装可能性を確認した. さらに,認識率を改善する方策として,口唇形状をより反映する視覚特徴量の抽出法について検討を進めている. なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] 荻原昭夫: "フルフレーム・フルカラー画像を用いた視聴覚融合音声認識" 第11回ディジタル信号処理シンポジウム講演論文集. 297-302 (1996)
[Publications] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会英文論文誌(EA). E79-A. 1836-1840 (1996)
[Publications] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)
[Publications] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会英文論文誌(EA). (印刷中). (1997)

1996 Fiscal Year Annual Research Report

マルチメディアコンピュータによる視聴覚融合音声認識システム

Principal Investigator

荻原 昭夫 大阪府立大学, 工学部, 講師 (60244654)

Research Products

[Publications] 荻原昭夫: "フルフレーム・フルカラー画像を用いた視聴覚融合音声認識" 第11回ディジタル信号処理シンポジウム講演論文集. 297-302 (1996)

[Publications] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会 英文論文誌(EA). E79-A. 1836-1840 (1996)

[Publications] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会 総合大会講演論文集. (発表予定). (1997)

[Publications] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会 英文論文誌(EA). (印刷中). (1997)

荻原昭夫大阪府立大学, 工学部, 講師 (60244654)

[Publications] Satoru Igawa: "Speech Recognition Based on Fusion of Visual and Anditory Information Using Full-Frame Color Image" 電子情報通信学会英文論文誌(EA). E79-A. 1836-1840 (1996)

[Publications] 森川政伸: "時間遅れニューラルネットワークを用いた視聴覚融合音声認識" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)

[Publications] Akio Ogihara: "An Isolated Word Speech Recognition Based on Fusion of Visual and Auditory Information Using 30-frame/s and 24-bit Color Image." 電子情報通信学会英文論文誌(EA). (印刷中). (1997)