2010 Fiscal Year Annual Research Report
アクティブ視聴覚統合による動的変化環境下での音環境認識
Project/Area Number |
22700165
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
中臺 一博 東京工業大学, 大学院・情報理工学研究科, 連携教授 (70436715)
|
Keywords | 視聴覚統合 / 音声認識 / 発話区間検出 / ロボット聴覚 / 音源同定 / 雑音抑圧 / ソフトウェアアーキテクチャ / 信頼度付特徴量 |
Research Abstract |
H22年度は、(1)視聴覚統合モデルの構築,(2)自己発生音抑圧、(3)音源同定・環境音認識、(4)ロボット実機・シミュレータのためのソフトウェアアーキテクチャ検討といった当初計画に対して、ほぼ遅滞なく研究を進めることができた。(1)に関しては、発話区間検出およびデコーディング処理という音声認識における2つの主要プロセスそれぞれに視聴覚統合を行う2階層視聴覚統合方式を提案し,実装し,その有効性を明らかにした.また,信号対雑音比や画像の解像度に応じて,特徴量に対する信頼度を動的に変更するモデルを考案し,オフラインでその効果を検証した.さらに,情報量の信頼度が大きく異なる場合にはモダリティ統合よりもモダリティ選択が有効であるという知見が得られつつあり,H23年度にこの検証を行う予定である.(2)に関しては,雑音テンプレートを用いた自己雑音抑圧法を確立し,その有効性を示した.(3)に関しては,階層型のGMMを用いた音源同定手法を構築した.H23年度は(1)のシステムへの統合を行う予定である.(4)に関しては,ロボット聴覚ソフトウェアHARK上で,動作するモジュールを実装することにより,統合を容易にした.H23年度は,実際に実機ロボットでの検証を行う予定である。
|