研究概要 |
本課題では、様々な環境下における音声による対話(マン-マシンインターフェイス)の実現を目的とし、視聴覚融合音声認識システムに関する研究を行なった。具体的には,「人間の目の役割を演ずるテレビカメラ」と「耳の役割を演ずるマイクロホン」から得られた情報を対象としてモバイルコンピュータ上で統合認識処理を行なうことにより、柔軟性のあるマン-マシンインターフェイスの実現を試みている。 本研究の目的である「モバイル視聴覚融合音声認識システム」は,3つの処理(「(1)視聴覚情報のデータ収集」,「(2)融合および認識手法の開発」,「(3)モバイルコンピュータへの実装」)から構築される。平成9年度は,(1),(2)の2つの処理に関する研究を行なった。 (1)視聴覚情報のデータ収集 視聴覚情報の入力手段としてデスクトップ型マルチメディアコンピュータを用いて、音声認識実験の対象データの収集を行なった。認識対象は音韻バランス単語群とし、通常の室内照明環境下で男性話者1名が通常の速度で発声した際の音声信号および動画像(30フレーム/秒)を収録した視聴覚融合音声認識用データベースを作成した。 (2)融合および認識手法の開発 視聴覚情報の融合ならびに認識については,研究代表者が従来より研究を行なっているHMM(隠れマルコフモデル)に多次元ベクトル量子化を組み合わせたモデル上で,特徴抽出,視聴覚融合処理,音声認識の各処理を実現した。特に、動画像からの特徴抽出においては、色情報を利用した口唇形状抽出法を用いることで高精度な特徴抽出を実現した。 なお,上述のデータ収集および認識手法開発に際して、本科学研究費補助金研究により購入した設備備品を使用した。
|