研究課題/領域番号 |
17K00365
|
研究機関 | 熊本大学 |
研究代表者 |
公文 誠 熊本大学, 大学院先端科学研究部(工), 准教授 (70332864)
|
研究分担者 |
中臺 一博 東京工業大学, 工学院, 特任教授 (70436715)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | ロボット聴覚 / ドローン聴覚 / 視聴覚統合 / センサフュージョン |
研究実績の概要 |
異なるモダリティとして視聴覚を統合するアプローチにおいて、地上物体・音源の認識を行うにあたって、音源定位(方向)情報を利用して動画像より音源領域の検出と、その追跡技術として、繰り返しベイズ推定による結合尤度に基づく手法、ならびに演算の高速なカルマンフィルタによる近似手法を実現した。いずれの手法においても、複数の音源が互いに交差するような判別の難しい状況にあっても適切に音源追跡が可能なことを実験的にも確認した。繰り返しベイズ推定による手法では、計算アルゴリズムを工夫することで実時間実行が可能なこと、また対象を特に話者(人間)に限定することで、効果的に追尾が可能であることを示した。またカルマンフィルタでの手法では、マイクロホンアレイから見た音源方向と想定画像領域の運動の一致を手がかりに、画像中の音源の表現に依らず追尾出来る点、進展があった。ここで、画像中に対象がオクルードされることと、音源信号が雑音等でマスクされる、あるいは発話が中断する(音が途切れる)ことが等価であることから、いずれのモダリティにおいても同じアプローチが可能であることは興味深い発見であった。 また、同種のモダリティの統合については、移動する無人航空機から音源を定位するにあたって複数の無人航空機が協調して定位を行う手法についても検討を行った。 一方、複数の音がほぼ同じ方向にある場合、これらの音源方向をそれぞれ正確に求めることは難しい。特に環境中にある騒音(ファン騒音など)方向に話者が重なる場合、話者の位置のみを正確に得るには、騒音成分を除外して定位する必要がある。このため、非負値分解を利用して音信号を分離し、その情報を用いて音源方向推定を行う手法を考案した。この結果、5度程度まで接近しても話者方向が推定できるものとなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
想定されていた、音・画像情報から未知の音源の発見し追跡するという手法については、評価実験レベルで達成しており、基礎的な展開は十分な進捗があると考えている。無人航空機で懸念される騒音についても、これを抑制すると考えられる手法を考案しており、今後の進展で無人航空機を用いた評価を行う段階まで進めることが可能であると考えており、概ね十分な進捗と判断した。 一方、本研究ではあまり想定していない、無人航空機での収録上の問題点(例えば振動や騒音等)が顕在化する可能性はあり、マルチモーダルステレオの実現の観点に焦点を当てて研究を進めることが必要である。
|
今後の研究の推進方策 |
H29, 30年度で開発した、音・画像情報から音源を発見し追跡するマルチモーダルステレオ技術を展開し、より現実的な状況でも利用可能なようロバスト化を進める。また無人航空機では、センサプラットフォームが移動することを想定した複数マイクロホンアレイ統合技術を踏まえ、エゴモーションを考慮した手法において視聴覚統合も展開する。なお、ここまで想定していなかった無人航空機での収録上の問題点(例えば振動や騒音等)が顕在化する場合、特にマルチモーダルステレオの実現の観点に焦点を当てて研究を進める。
|
次年度使用額が生じた理由 |
平成31年度年度の早い段階で実施予定としている無人航空機実験の消耗品(機械部品等)について、実際の実験にあわせて無駄なく購入することとしたため。使途は実験費用。
|