2005 Fiscal Year Annual Research Report
ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究
Project/Area Number |
15200015
|
Research Institution | Kyoto University |
Principal Investigator |
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
宮原 誠 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (00115122)
駒谷 和範 京都大学, 情報学研究科, 助手 (40362579)
和田 俊和 和歌山大学, システム工学部, 教授 (00231035)
後藤 真孝 産業技術総合研究所, 情報処理研究部門, 主任研究員 (20357007)
|
Keywords | ロボット聴覚 / 音環境理解 / 視聴覚情報統合 / 音楽情報処理 / 擬音語認識 / ミッシングフィーチャ / マスク自動生成 / 色弁別度 |
Research Abstract |
マイクロフォンアレイによる音源分離とミッシングフィーチャ理論による音声認識との統合システムの詳細な評価と、インタラクション戦略を開発した。主な研究項目は以下の通りである。 (1)GSS(幾何学的音源分離)のためのミッシングフィーチャマスク(MFM)自動生成法に対して遺伝的アルゴリズムによる最適パラメータ調整を行い、2話者同時発話認識で中央と左方向の話者(50cm〜250cm,間隔は30,60,90度)に対して、平均、94.7%,93.6%,3話者同時発話認識で96.7%,82.0%まで向上した。 (2)2本のマイクを使用した音源分離として、SIMO-ICA(Single-Input Multiple-Output型Independent Component Analysis)を開発した。ロボット聴覚には無指向性マイクの方が適切なので、従来後処理に用いられているバイナリマスクは指向性マイクを想定しているので使えない。優位信号選択法を開発し、さらに、MFM自動マスク生成法を開発した。音声認識率は上記の2話者同時発話に対して、76.7%,74.7%である。性能が劣る原因の一つは話者数の変化に対応できないICAの本質的な限界である。発話区間が与えられると約7%性能が向上することが判明した。 (3)上記の知見から、音声認識の性能向上のために音声発話区間抽出(VAD)を開発した。音声情報はGMMにより音声・非音声を判別し、画像処理により求めた顔および唇の動きを検出し、両者を統合してVADを行う。現在、評価中である。 (4)音環境理解のための要素技術の洗練化と階層的情報統合の研究:昨年度提案した最近傍識別器による色ターゲット検出法を拡張し、「色弁別度」とそれに基づき人物頭部の三次元位置を実時間で検出・追跡するアルゴリズムを開発した。しかし、上記との統合は未だ行っていない。 (4)ヒューマノイドの身体性を利用したインタラクション戦略として、親密度の空間マッピングによるインタラクションパートナ選択法を開発した。被験者を用いて、手法の有効性を確認した。
|
Research Products
(30 results)