2014 Fiscal Year Annual Research Report
ロボットのための音声・環境音・背景音同時認識システムの開発
Project/Area Number |
24700169
|
Research Institution | Osaka Sangyo University |
Principal Investigator |
高橋 徹 大阪産業大学, デザイン工学部, 准教授 (30419494)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 音声認識 / 環境音認識 / 背景音認識 / ロボット聴覚 / 音源定位 / 音源分離 / マイクロホンアレイ / 混合音認識 |
Outline of Annual Research Achievements |
ロボットが、音声・環境音・背景音を同時認識するための方法を開発することが本研究の目的である。ロボットが、実環境で人間とスムーズに音声を通じて対話するためには、音声認識機能に加え、一般の音を含む、様々な音を認識する必要があるためである。これまで、音声・環境音・背景音を同時に認識するシステムを開発してきた。音声認識、環境音認識、背景音認識を個別に開発し、それらを統合するアプローチを取った。統合アプローチを採用したことから、入力音を音源分離し、分離音声が音声・環境音・背景音のいずれであるかを識別する必要があり、識別手法を開発した。ここまでの開発で、同時認識が可能になったことから、本研究の最小目標を達成できたと考えている。 その後、背景音の認識精度の改良を通じ、同時認識システム全体のパフォーマンス向上を目指した。背景音から、ロボットがどの場所にいるかを推定する試みであった。異なる場所では背景音が異なるという仮定は、常に成り立つとは限らない。GPS を併用し、得られる位置情報と背景音のパターンから場所を特定する方法を開発した。 その他、混合音を各音源要素に分離する手法が万能ではない点に注目し、十分に音源分離できていない音の音響パターンをパターンマッチングする方法について検討した。特に、音声信号と音楽信号が混合した音を用いてパターンマッチングのための音響特徴量設計とパターンマッチング手法を検討した。これは、音源分離システムが全く分離でいなかった場合という極端なケースを想定したもので、音源分離しない混合音響信号のパターンから、各構成音の音響信号パターンにマッチングさせる課題である。混合音であることを想定した音響特徴量設計により、マッチング精度の向上を確認できた。同時認識システムへ組み込むことで、システム全体のパフォーマンスを改善できると考えられる。
|
Research Products
(6 results)