2006 Fiscal Year Annual Research Report
ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究
Project/Area Number |
15200015
|
Research Institution | Kyoto University |
Principal Investigator |
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
駒谷 和範 京都大学, 情報学研究科, 助手 (40362579)
和田 俊和 和歌山大学, システム工学部, 教授 (00231035)
後藤 真孝 産業技術総合研究所, 情報処理研究部門, 主任研究員 (20357007)
|
Keywords | ロボット聴覚 / 音環境理解 / 視聴覚情報統合 / 音楽情報処理 / 擬音語認識 / ミッシングフィーチャ理論 / マスク自動生成 / 遺伝的アルゴリズム |
Research Abstract |
ロボット聴覚と、市販CD音楽からのドラム音認識という2つの音環境理解ステムをより実世界に近い形で使用できるように、システムの洗練化を行った。主な研究項目は以下の通りである。 (1)ロボット聴覚システムは、実環境で使用するためには事前知識を極力減らすことが重要である。音源分離については、従来使用してきたGSS(幾何学的音源分離)では、ロボットに搭載されたマイクロフォンの3D座標だけが必要である。音声認識については、事前学習が必要なマルチコンディショニング学習による音響モデルを使わず、分離音の時間周波数マスクを自動作成し、そのマスクをミッシングフィーチャマスクとして使用するミッシングフィーチャ理論による音声認識を使用した。また、実時間処理のために、FlowDesignerを用いてシステムを統合した。この結果、実三話者による料理注文のデモにおいて、発話終了後1.9秒ですべての発話を理解し、応答することが可能となった。これらには、音源定位の高性能化と発話区間検出も組み込み、音声認識性能の向上を図っている。本システムの有効性は、3種類のロボット(SIG2, Robovie, ASIMO)で、それぞれ異なるマイク配置で機能することも確認をした。 (2)事前知識の不必要な独立成分解析(ICA)に対して、ソフトマスク(連続値)自動生成システムを開発し、ハードマスク(2値)よりも性能向上を得た。特に、音楽と音声の場合には、GSSよりも高い性能が達成できた。 (3)市販CD音楽に対して、ドラムスを高性能で認識し、ドラム音の編集が実時間で行えるシステムを開発した。さらに、ドラム音からのビートトラッキングを実時間で行うシステムを開発した。 (4)ロボットに搭載されたマイクから音を収録、それを実時間で可視化し、さらに、アーカイブされた音に、"overivew first, zoom and filter, then details on demand"というGUIを作成し、音環境理解研究のinstrumentationを行った。
|
Research Products
(23 results)