1997 年度実績報告書

マルチメディアコンピュータによるモバイル視聴覚融合音声認識システム

研究課題

研究課題/領域番号	09780354
研究機関	大阪府立大学
研究代表者	荻原昭夫大阪府立大学, 工学部, 講師 (60244654)
キーワード	音声認識 / 視聴覚融合 / センサフュージョン / HMM / マルチメディア / モバイル / 視聴覚情報 / 動画像
研究概要	本課題では、様々な環境下における音声による対話(マン-マシンインターフェイス)の実現を目的とし、視聴覚融合音声認識システムに関する研究を行なった。具体的には,「人間の目の役割を演ずるテレビカメラ」と「耳の役割を演ずるマイクロホン」から得られた情報を対象としてモバイルコンピュータ上で統合認識処理を行なうことにより、柔軟性のあるマン-マシンインターフェイスの実現を試みている。本研究の目的である「モバイル視聴覚融合音声認識システム」は,3つの処理(「(1)視聴覚情報のデータ収集」,「(2)融合および認識手法の開発」,「(3)モバイルコンピュータへの実装」)から構築される。平成9年度は,(1),(2)の2つの処理に関する研究を行なった。 (1)視聴覚情報のデータ収集視聴覚情報の入力手段としてデスクトップ型マルチメディアコンピュータを用いて、音声認識実験の対象データの収集を行なった。認識対象は音韻バランス単語群とし、通常の室内照明環境下で男性話者1名が通常の速度で発声した際の音声信号および動画像(30フレーム/秒)を収録した視聴覚融合音声認識用データベースを作成した。 (2)融合および認識手法の開発視聴覚情報の融合ならびに認識については,研究代表者が従来より研究を行なっているHMM(隠れマルコフモデル)に多次元ベクトル量子化を組み合わせたモデル上で,特徴抽出,視聴覚融合処理,音声認識の各処理を実現した。特に、動画像からの特徴抽出においては、色情報を利用した口唇形状抽出法を用いることで高精度な特徴抽出を実現した。なお,上述のデータ収集および認識手法開発に際して、本科学研究費補助金研究により購入した設備備品を使用した。

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 森川政伸: "TDNNによる視聴覚融合音声認識手法の検討" 第12回ディジタル信号処理シンポジウム講演論文集. 297-302 (1997)
[文献書誌] 浅野英輔: "カラー情報を用いた唇形状の抽出" 1998年電子情報通信学会総合大会講演論文集. (発表予定). (1998)