研究概要 |
音声および音響情報に含まれる空間情報は,視覚情報と連携することにより,極めて有用性の高い情報となる。聴覚的空間情報と視覚的空間情報の連携は,人間の持つ柔軟性を模擬しそれを発展させるには,必要不可欠な要素である。特に,視聴覚に基づく空間情報の時間差分は,より高い精度の空間的情報を,より多くの機能を持たせた形で利用可能と考えられる。本研究では,すでに開発した周波数領域両耳聴モデルを発展させ,聴覚的空間情報の抽出機能を向上するとともに,視覚的空間情報と連携させてることで,両空間情報を補完的に統合することにより,これまでにない高精度な空間情報の抽出と,それに基づく高品質な情報抽出機能を実現することを目的と,本年度は次の2点について研究を行った。(A)視覚的空間情報と聴覚的空間情報の相補的連携:視覚的空間情報との有機的な連携について研究を進めた。特に視覚情報との連携を,単一のCPUで実時間動作するシステムの実装を試みた。(B)視覚領域での顔画像を中心とした空間情報抽出:視覚情報から複数の発話者が存在する場合についての顔領域の検出を試み,「音源候補」領域の抽出を実装した。 上記の取り組みに際して,カメラの回転運動にともなる空間情報の時間差分情報活用や,移動する音源に対して聴覚的空間情報と視覚的空間情報が相補的に統合された情報の時間変化を統合することによる検出精度の向上についても検討した。
|