研究概要 |
人間は,複数の人が歩いているシーンから,聞こえてくる足音が視覚中のどの足から発せられたものであるかを見つけ出すことができる。これは,人間が視覚と聴覚の対応付けを行なっているからだと考えられる。本研究では,複数の物体が視野内に存在し,その一つが音を発している場合に,先見的な知識無しで音を発している物体を見つけ出す方法を確立した。 具体的には,まず,音データと動画像データを同期して取り込む。次に,画像1フレームに対応する音データの小区間から振幅最大のものを選ぶことによって,画像フレームに対応する音データの系列を作る。この系列から,複数のピーク部分を抽出する。次に,音のピークに対応する画像フレームとその前後のフレームを選びだし,そのフレーム間差分をとることによって,音に対応する物体のエッジの(通常は複数の)候補を見つける。最後に,音のピークデータの系列と,画像からエッジ抽出した部分の画素数の相関係数を計算することによって,音と関連して生じているエッジ部分を見つけ,このエッジが囲む部分を音に対応する物体が画像中に存在する領域とする。 実際の実験では,メトロノームと拍手している手が写っている動画像から,拍手の音を手がかりにして,画像中の手の位置を見つけ出すことに成功した。
|