指示棒と音声を用いるマルチモーダルインターフェイスの認識処理高速化

Research Project

Project/Area Number	07780369
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	情報システム学(含情報図書館学)
Research Institution	Kyushu Institute of Technology
Principal Investigator	大橋健九州工業大学, 情報工学部, 助手 (00233239)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥800,000 (Direct Cost: ¥800,000) Fiscal Year 1995: ¥800,000 (Direct Cost: ¥800,000)
Keywords	ヒューマンインターフェイス / マルチモーダルインターフェイス / 情報統合 / 画像処理 / 画像認識 / 音声認識 / 音声抽出
Research Abstract	本研究は,ユーザが指示棒を音声とを用いてコンピュータとインタラクションを行なうインターフェイス環境を構築するために行なわれた.指示棒の3次元座標は,テレビカメラの映像から画像処理を行い指示棒の画像領域を抽出し,3次元空間中の座標を推定することにより得られる.これらの座標を用いてポインティングバイスとして活用し,音声認識から得られる言語情報と組み合わせることにより使い易いインターフェイスを構築しようというものである. 指示棒と音声を用いたマルチモーダルインターフェイスを構成するにあたり,画像処理による指示棒の認識と音声認識処理の速度と精度の向上が課題であった.画像処理速度の向上に関しては,入力画像をネット-ワークを経由した別の計算機に送付し認識処理を行なうことを試みた.しかしながら画像のデータ量が多く高速のネットワークでないと効果が得られないことが分った.また,画像サイズが小さければ十分ワークステーションでもリアルタイム(一秒間に10コマ程度)処理できるので実用になる範囲と考えられる. 次に音声認識についてであるが,インタラクティブなシステムに活用するためには精度はもちろんレスポンスタイムが短いことが望ましい.このため,認識対象とする単語を限定しパワーをもとに単語に切り出しして認識させることによりソフトウェアのみでも十分許容できる時間内で認識処理できるようになった.また,音声の母音のもつ調波構造とホルマントの特徴を用いて他の背景雑音から抽出することができるようになった.今後はこれを用いて音声認識の評価を行ないたいと考えている.