Research Abstract |
人間は,音の鳴った方向を見る,動いているものの音を認識するなど,視聴覚を統合して環境を認識することができる.視覚と聴覚を比較すると,視覚は観測範囲が狭く,空間分解能が高いのに対し,聴覚は観測範囲が広く,空間分解能が低いという特徴がある.また,視覚では,障害物の後ろ側は見えないのに対し,聴覚では,回折により音を聞くことができる.このように,視聴覚を統合することの利点は大きい.この機能を工学的に実現することによって,監視装置や自律移動ロボットの視聴覚機能など,幅広い応用が考えられる. マイクとカメラを監視区域に配置し,そこから得られる情報を元に監視区域内の移動物体(音源)の追跡を行うことを目的として研究を行ってきた.視覚による追跡として複数の人物をなるべく高解像度で,かつ,観測範囲全体を監視する手法を提案した.カメラに追跡と監視の2つの役割を与え,この2つの役割を状況に応じて変化させた.追跡カメラは,監視カメラからの情報を基に追跡している人物の位置を求め,その位置と優先度から人物を追跡するのにふさわしいカメラを選び,連携を依頼する.カメラは,追跡の役割の場合は,追跡している人物の情報をより多く得るためにズームを行なった.また,監視の役割の場合には,広角に撮影することで複数の人物を撮影することができた. マイクを4つ使用し,2組の音の立ち上がり時間差により周囲360°の範囲で方向推定するシステムを作成した.音源定位した方向にカメラを向け視野内に収めた後,手招き動作の検出を行い,視野内の人物の位置を把握する.手招き動作検出にはフレーム間差分処理と肌色描出を使用し,手招き動作部分の方向を特定する.以上のシステムを実現し,人物の位置推定の実験を行った結果,成功率は80%であった.
|