研究概要 |
本研究の目的は,実時間の動画像処理と音響信号処理とを融合させることにより,対象とする人の周りでのみ局所的に音のやりとりができる,新しい自然で非束縛型のヒューマンインタフェースを実現することにある.具体的には,「人の存在を認識」してその人に注意を向け,「聞き耳をたてる」形で音声を拾い,「耳元で語りかける」形で音を聴かせる技術の確立を目指す.今年度は,昨年度に続き「耳元で語りかける」技術に注力すると共に,「人の存在を認識」する技術にも着手した. 「耳元で語りかける」技術に関しては,昨年度,直交2軸16台(8×2)スピーカー(SP)アレイを用いスポット状高音圧分布の生成に成功した.ただし,これは一カ所のみであった.この成果を踏まえて,今年度はSP128台(32×4)の大規模SPアレイを構築し,別内容音声の複数箇所同時送出に成功した.すなわち,同時に複数の人の耳元で「それぞれ別の内容を語りかける」ことを可能とした. 「人の存在を認識」して注意を向ける技術に関しては,複数台のTVカメラと実時間顔追跡視覚とを組合せ,対象とする人が広い範囲で動いてもそれに追従してその人の位置座標を得ることに成功した. 今年度の具体的内容は次のとおりである.1)128チャンネル大規模SPアレイの構築,2)これを用いた別内容音声の複数箇所同時送出実験,および3)複数台カメラと顔追跡視覚との組合せによる広範囲実時間顔追跡実験.1)と2)は「耳元で語りかける」技術の一環である.正方形状配置の128ch大規模SPアレイにより,別内容音声のサウンドスポットを4カ所同時に生成できた.一方,3)は「人の存在を認識」する技術の一環である.複数台カメラと実時間顔追跡視覚とを用いることで,対象人物が動いても,広い範囲でその人の顔を追跡,顔位置の情報を得ることができた.
|