2012 Fiscal Year Annual Research Report
アクティブ視聴覚統合による動的変化環境下での音環境認識
Project/Area Number |
22700165
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
中臺 一博 東京工業大学, 情報理工学(系)研究科, 教授 (70436715)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | ロボット聴覚 / アクティブ視聴覚統合 / アクティブ聴覚 / 視聴覚音声認識 / 視聴覚発話区間検出 |
Research Abstract |
ロボットのカメラ・マイクから得られる情報量のレベルに応じた視聴覚統合,さらにロボット動作制御により情報量レベルを向上させるアクティブ視聴覚統合の枠組みを提案・構築し,その有効性を実環境での音環境認識で実証するという目的に対して,当該年度は,システム統合,パッケージ化とその公開にフォーカスし,研究を行った. 前年度,理論部分の構築を行った因果推論ベイズモデルに基づく手法をさらに改良し,アクティブ視聴覚統合手法を提案した.これにより,ロボットの動作が,聴覚・視覚情報に与える影響を予測すると同時に,ロボットがより認識しやすい音声・画像情報を取得できるようなアクティブな動作を行うことが可能となった.またこの手法を台車ベースのヒューマノイドロボット Hearbo 上に,ロボット聴覚のオープンソースソフトウェアHARK,およびロボット用ミドルウェアROSを用いて統合ロボットシステムとして構築し,評価を行った.ユーザが発話を行っている区間を検出する発話区間検出を評価タスクに用いたところ,単純なルールベースや一般的なベイズベースの予測手法と比較し,有意な性能向上が得られ,提案手法の有効性を実証できた. 自己雑音抑圧技術は,これまでの成果をまとめて,ロボット聴覚のオープンソースソフトウェアHARKのパッケージとして構築,近日中に一般公開を行う予定である.また,環境音認識の一環として行っていたビートトラッキングは,HARKのパッケージとして構築し,すでに公開を行っている. 全体として,すべての要素技術を統合システムとして構築するまでには至らなかったものの,コアの技術である「アクティブ視聴覚統合」手法を提案し,実ロボットでその有効を実証できたこと,その他の要素技術も統合に向けてパッケージ化およびコミュニティの活性化を促すために公開の準備は整えたことから,概ね予定通りに研究を進めることができた.
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|