Research Abstract |
人間は,視覚,聴覚などの複数の感覚をうまく統合することによって優れた認識能力を実現している.このような優れた能力を工学的に実現するための技術がセンサフュージョンである.当該研究員は,センサフュージョンの技術をヒューマンインタフェースに応用するための研究を行っている.具体的には,ビジョンとマイクロフォンを用いて人間の動作や声を計測し,それらの情報を融合することで,人間のジェスチャーの認識を高速かつ高い精度で実現することを目標としている.聴覚と視覚情報の融合は,これまでにも多くの研究が行われてきたが,それらのほとんどは,人間の話し声に対する音声認識を目的としたものであった.一方,人間のジェスチャー認識に聴覚と視覚のセンサフュージョンを応用した研究はなく,本研究はジェスチャー認識に対して,新たな視点から取り組み,性能の向上を目指すものである.本年度までに次のような研究を行った. (1)隠れマルコフモデルに基づく,音声,ジェスチャー認識 音声とジェスチャーそれぞれについて,隠れマルコフモデルを用いた認識アルゴリズムを構築した.さらに隠れマルコフモデルに用いるデータベースの構築を開始した.これまで,音声に関するデータベースは数多く作成してきたのに対して,ジェスチャーに関するデータベースはほとんど作成されていない.そのため,前者に関しては既存のものを流用することができたが,後者に関しては,高速カメラを用いた視覚認識システムにより,ジェスチャーの様々な動画像を計測し,その動作を解析することで新たにデータベースを作成することを行った.作成したデータベースに基づき,ジェスチャー認識を行ったところ,良好な認識結果を達成することができた. (2)expectation window手法に基づく,非同期音声ジェスチャー認識 ジェスチャーと音声は,必ずしも時間的に同期しているわけではないので,そのまま,直接信号を融合することはできない.この問題を解決するために,新たにExpectation window手法を開発した.この手法は,時間軸上の窓関数を用いて各信号データを分割し,分割したデータごとに信頼度を用いた対応付けを行う.対応したデータごとに隠れマルコフモデル上で音声とジェスチャーの融合を行うことで,より安定した認識結果を得ることができる.このモデルと作成したデータベースを用いて認識を行ったところ,良好な結果を得ることができた.
|