本課題ではドローンによる音源の追跡において、対象となる音源の音情報とそれ以外の情報(画像上の特徴など)を活用することに着目している。これらのマルチモーダルな情報の対応が得られる仮定の上でこれまでに音源の奥行き情報推定などが可能なことを示しており、昨今進展の著しい機械学習手法などによって特徴量間の対応を求めることが有用であると期待される。一方で、一般にモダリティ間の関係を事前に与えることは難しいことから、この仮定を緩和することに注力した。まずマイクアレイ・カメラのセンサ対で収録した試験データから音・画像の組合せを自動的に検出し、学習に供する音・画像情報統合技術を開発した。また、音源方向情報に加え、音色のように異なった特徴量を組み合わせることで、複数の音源を安定して追跡する手法も提案した。今後画像特徴も取り込むことが可能である。 また、ドローンで収録される音信号は複数の対象の発する信号が混合したものとなるため、これらを適切に分離・識別することは音源追跡の重要な要素である。本課題ではロボット聴覚技術を利用した音源分離とbag-of-wordsのアプローチに基づく音源の区別方法や、深層学習に基づいた音源毎の信号のセグメンテーション手法を開発した。 さらに、複数の音源が存在する時、音源位置の推定情報の不確かさが非ガウスとなることを明らかにし、このことを踏まえたドローンの飛行経路を計画するアクティブ音源探査手法を開発した。
|