研究概要 |
本課題では,動画像を使用した視聴覚融合による人間と計算機との対話システムの実現を目的とし,視聴覚融合音声認識システムに関する研究を行なった.特に,近年,急速に普及しつつあるマルチメディアコンピュータ(「動画像の表示」や「音響信号の録音・再生」などの機能を有するコンピュータ)上に視聴覚融合音声認識手法を実装することで,特殊な装置を一切用いることなく音声認識システムを実現することを試みた. 本研究で構築を行なった「マルチメディアコンピュータによる視聴覚融合音声認識システム」では,マルチメディアコンピュータが有している“音声同期型動画像入力機能"を用いてフルフレーム(30fps, 1秒間当たり30フレーム)・フルカラー(24 bit color)の動画像をディジタル形式のデータとして撮影する.その後,この動画像を対象として,特徴抽出処理,視聴覚融合処理,音声認識処理の各処理をマルチメディアコンピュータ上で行なう.なお,視聴覚融合処理については,「1次結合によるHMM(隠れマルコフモデル)視聴覚融合手法」と「TDNN(時間遅れニューラルネットワーク)による視聴覚融合手法」の2種類の手法により実現している. 本システム用いて音声認識実験を行なった結果, ・唇の動きが速いために認識が困難であった子音に対する効果 ・マルチメディアコンピュータ上への視聴覚融合音声認識システムの実装可能性 を確認した. さらに,認識率を改善する方策として,口唇形状をより反映する視覚特徴量の抽出法について検討を進めている. なお,上述のシステムの構築,および,実験評価の実施に際して,本科学研究費補助金研究により購入した設備備品を使用した.
|