研究概要 |
本研究は,ユーザが指示棒を音声とを用いてコンピュータとインタラクションを行なうインターフェイス環境を構築するために行なわれた.指示棒の3次元座標は,テレビカメラの映像から画像処理を行い指示棒の画像領域を抽出し,3次元空間中の座標を推定することにより得られる.これらの座標を用いてポインティングバイスとして活用し,音声認識から得られる言語情報と組み合わせることにより使い易いインターフェイスを構築しようというものである. 指示棒と音声を用いたマルチモーダルインターフェイスを構成するにあたり,画像処理による指示棒の認識と音声認識処理の速度と精度の向上が課題であった.画像処理速度の向上に関しては,入力画像をネット-ワークを経由した別の計算機に送付し認識処理を行なうことを試みた.しかしながら画像のデータ量が多く高速のネットワークでないと効果が得られないことが分った.また,画像サイズが小さければ十分ワークステーションでもリアルタイム(一秒間に10コマ程度)処理できるので実用になる範囲と考えられる. 次に音声認識についてであるが,インタラクティブなシステムに活用するためには精度はもちろんレスポンスタイムが短いことが望ましい.このため,認識対象とする単語を限定しパワーをもとに単語に切り出しして認識させることによりソフトウェアのみでも十分許容できる時間内で認識処理できるようになった.また,音声の母音のもつ調波構造とホルマントの特徴を用いて他の背景雑音から抽出することができるようになった.今後はこれを用いて音声認識の評価を行ないたいと考えている.
|