指示棒と音声を用いるマルチモーダルインターフェイスの認識処理高速化
Project/Area Number |
07780369
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
情報システム学(含情報図書館学)
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
大橋 健 九州工業大学, 情報工学部, 助手 (00233239)
|
Project Period (FY) |
1995
|
Project Status |
Completed (Fiscal Year 1995)
|
Budget Amount *help |
¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1995: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | ヒューマンインターフェイス / マルチモーダルインターフェイス / 情報統合 / 画像処理 / 画像認識 / 音声認識 / 音声抽出 |
Research Abstract |
本研究は,ユーザが指示棒を音声とを用いてコンピュータとインタラクションを行なうインターフェイス環境を構築するために行なわれた.指示棒の3次元座標は,テレビカメラの映像から画像処理を行い指示棒の画像領域を抽出し,3次元空間中の座標を推定することにより得られる.これらの座標を用いてポインティングバイスとして活用し,音声認識から得られる言語情報と組み合わせることにより使い易いインターフェイスを構築しようというものである. 指示棒と音声を用いたマルチモーダルインターフェイスを構成するにあたり,画像処理による指示棒の認識と音声認識処理の速度と精度の向上が課題であった.画像処理速度の向上に関しては,入力画像をネット-ワークを経由した別の計算機に送付し認識処理を行なうことを試みた.しかしながら画像のデータ量が多く高速のネットワークでないと効果が得られないことが分った.また,画像サイズが小さければ十分ワークステーションでもリアルタイム(一秒間に10コマ程度)処理できるので実用になる範囲と考えられる. 次に音声認識についてであるが,インタラクティブなシステムに活用するためには精度はもちろんレスポンスタイムが短いことが望ましい.このため,認識対象とする単語を限定しパワーをもとに単語に切り出しして認識させることによりソフトウェアのみでも十分許容できる時間内で認識処理できるようになった.また,音声の母音のもつ調波構造とホルマントの特徴を用いて他の背景雑音から抽出することができるようになった.今後はこれを用いて音声認識の評価を行ないたいと考えている.
|
Report
(1 results)
Research Products
(3 results)