研究課題/領域番号 |
17K00365
|
研究機関 | 熊本大学 |
研究代表者 |
公文 誠 熊本大学, 大学院先端科学研究部(工), 准教授 (70332864)
|
研究分担者 |
中臺 一博 東京工業大学, 工学院, 特任教授 (70436715)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | ロボット聴覚 / 音源定位 / 視聴覚統合 / マルチロータヘリコプタ |
研究実績の概要 |
本研究課題では、マルチロータヘリコプタから得られる視覚情報と聴覚情報を統合して実環境で音源位置を推定することを目的としており、初年度は異種センサ情報をマルチモーダルステレオという枠組みで統合する基礎部分の検証を行う計画であった。 29年度の具体的な実績として、地上のビデオカメラの動画像とマイクロホンアレイのマルチチャネル音信号から音源位置を統合するため、それぞれのモダリティで得られる対象(人)への方向情報を繰り返しベイズ推定の結合尤度として扱う方法を考察した。実際に体育館程度の広さの空間で複数の人が歩きまわる場合で検証した所、奥行きを含めた平面位置を得られた。また、これに関する他のアプローチとして音の反射を利用して奥行き情報を推定する方法も検討した。 実環境の実験から、視覚におけるオクルージョンと同様に話者同士がマイクロホンアレイから見て同じ方向にある場合に定位が困難にになる、いわば音源方向推定におけるオクルージョンの問題があることを確認した。さらに、音源がほぼ同一方向にある場合、従来の音到来方向の推定手法では不確かな結果が得られるものの、一定の仮定の下で定位に先立って音源を分離するなどして、対象音の周波数情報を用いて定位性能を改善できることを示した。 また、マルチロータヘリコプタでの応用を想定し、地上に複数の音源がある場合のマルチロータヘリコプタでの収録音による定位についても実験的検証を行い、音源分離と音源識別情報を併用することで移動する複数音源を追尾出来ることも示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
視覚情報と聴覚情報という対象の方向のみを推定できるセンサを対象に、異なる二つの情報から対象音源の位置を推定するコンセプトに対し、不確かさを考慮した繰り返しベイズ推定手法によって複数話者の位置推定が可能であることを示した点で、重要な基礎概念部分について確認が出来た点、研究の進捗は順調であると言える。加えて、実際のシステムを構築したところ、この処理は小型ノートPCで実時間で実現できたことから計算量的にも効率的である点は強調したい。また、マルチロータヘリコプタでの実際の収録信号から、地上の複数話者を追尾する例において一定の定位結果を得ており、初年度として十分な準備が出来たと考えている。 話者同士が交錯するような音のオクルージョンのある場合に、単純な推定・統合手法では問題のある一方、統計的音源分離手法を併用することで、音源方向推定性能が改善することを示せた点は、当初の予想よりも技術的な進展のあった点で、今後継続して研究を行う予定である。 一方、音源定位の対象を話者(人)に限定している点は、今後検討が必要である。この仮定は現在のシステムでは、特に視覚情報から対象音源の候補を抽出する段階で重要であるが、マルチモーダルステレオにおいてかなり多くの事前情報を与えていることになっているため、今後はこの仮定を緩める必要がある。また、マルチロータヘリコプタでは音響信号のみを取り扱っており、画像情報の取扱は未だである。 以上のことから、今後改善の必要な点はあるものの、当初予定していた基礎部分について成果が出ており、総じておおむね順調な進展を見ていると考えている。
|
今後の研究の推進方策 |
29年度に提案するアプローチについて一定の条件の下で基本的な点は確認されたので、今後は条件を緩和し、より一般的な場合へと展開するとともに、最終目標であるマルチロータヘリコプタへの統合を進める。 まず、対象を話者(人)に限らず一般的な対象へと広げることを考える。現状のシステムでは特に視覚情報において音源候補をどのように抽出するか、に関わっており、データアソシエーションの自明でないマルチモーダルステレオでは必ずしも可能ではない。そこで、機械学習等の手法を援用して、事前に画像上の特徴量から音源候補への対応を得る方法などを考察し、識別器の構成に取り組むこととする。また、マルチロータヘリコプタでの実験でも限られたクラスの音信号を対象として識別していたが、これについても一般化に取り組む。音源追尾にあっても、音信号が間欠的であることから、音源の同一性を利用して連続した追尾を行うこと、また異なる音を区別して除外するなど重要な技術であり、ここでも対象音の特徴量を適切に学習し識別することが効果的と考えられる。 現在のマルチロータヘリコプタのシステムを音響信号に加え、視覚情報を取り扱うよう拡張する。機上の計算機で画像処理を行うのは計算量の観点から難しいので、地上基地局へ送信し、この上で処理することとなるが、伝送にも相応の帯域が必要となるため、所望の処理を行うに十分となるよう情報削減と行うなどの手法についても考察する。
|
次年度使用額が生じた理由 |
マルチロータヘリコプタにおいて、動画像処理を行うための装置等の改修に一定の費用が見込まれることから、実際に装置改造を行う予定である30年度以降に執行することを予定して予算を繰り越すこととしました。特に、装置の選定にあたっては、機体重量、バランスをみながら安全に実験を行えることが最重要で、装置等の選定には慎重を期したものです。
|