• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 実績報告書

ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究

研究課題

研究課題/領域番号 15200015
研究機関京都大学

研究代表者

奥乃 博  京都大学, 情報学研究科, 教授 (60318201)

研究分担者 河原 達也  京都大学, 学術情報メディアセンター, 教授 (00234104)
佐藤 理史  名古屋大学, 工学研究科, 教授 (30205918)
駒谷 和範  京都大学, 情報学研究科, 助手 (40362579)
和田 俊和  和歌山大学, システム工学部, 教授 (00231035)
後藤 真孝  産業技術総合研究所, 情報処理研究部門, 主任研究員 (20357007)
キーワードロボット聴覚 / 音環境理解 / 視聴覚情報統合 / 音楽情報処理 / 擬音語認識 / ミッシングフィーチャ理論 / マスク自動生成 / 遺伝的アルゴリズム
研究概要

ロボット聴覚と、市販CD音楽からのドラム音認識という2つの音環境理解ステムをより実世界に近い形で使用できるように、システムの洗練化を行った。主な研究項目は以下の通りである。
(1)ロボット聴覚システムは、実環境で使用するためには事前知識を極力減らすことが重要である。音源分離については、従来使用してきたGSS(幾何学的音源分離)では、ロボットに搭載されたマイクロフォンの3D座標だけが必要である。音声認識については、事前学習が必要なマルチコンディショニング学習による音響モデルを使わず、分離音の時間周波数マスクを自動作成し、そのマスクをミッシングフィーチャマスクとして使用するミッシングフィーチャ理論による音声認識を使用した。また、実時間処理のために、FlowDesignerを用いてシステムを統合した。この結果、実三話者による料理注文のデモにおいて、発話終了後1.9秒ですべての発話を理解し、応答することが可能となった。これらには、音源定位の高性能化と発話区間検出も組み込み、音声認識性能の向上を図っている。本システムの有効性は、3種類のロボット(SIG2, Robovie, ASIMO)で、それぞれ異なるマイク配置で機能することも確認をした。
(2)事前知識の不必要な独立成分解析(ICA)に対して、ソフトマスク(連続値)自動生成システムを開発し、ハードマスク(2値)よりも性能向上を得た。特に、音楽と音声の場合には、GSSよりも高い性能が達成できた。
(3)市販CD音楽に対して、ドラムスを高性能で認識し、ドラム音の編集が実時間で行えるシステムを開発した。さらに、ドラム音からのビートトラッキングを実時間で行うシステムを開発した。
(4)ロボットに搭載されたマイクから音を収録、それを実時間で可視化し、さらに、アーカイブされた音に、"overivew first, zoom and filter, then details on demand"というGUIを作成し、音環境理解研究のinstrumentationを行った。

  • 研究成果

    (23件)

すべて 2007 2006

すべて 雑誌論文 (20件) 図書 (2件) 産業財産権 (1件)

  • [雑誌論文] 音環境理解から観たロボット聴覚2007

    • 著者名/発表者名
      奥乃 博
    • 雑誌名

      日本音響学会誌 63・1

      ページ: 29-34

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択2007

    • 著者名/発表者名
      神田 直之
    • 雑誌名

      情報処理学会論文誌 48・5(印刷中)

  • [雑誌論文] Drumix : An Audio Player with Functions of Realtime Drum-Part Rearrangement for Active Music Listening2007

    • 著者名/発表者名
      Kazuyoshi Yoshii
    • 雑誌名

      Journal of Information Proceeding Society of Japan 48・3

      ページ: 1229-1239

  • [雑誌論文] Instrogram : Probabilistic Representation of Instrument Existence for Polyphonic Music2007

    • 著者名/発表者名
      Tetsuro Kitahara
    • 雑誌名

      Journal of Information Proceeding Society of Japan 48・1

      ページ: 214-226

  • [雑誌論文] 動的リコンフィギャラブルデバイス DRP を用いたロボット聴覚のための音源分離フィルタ2007

    • 著者名/発表者名
      黒瀧 俊輔
    • 雑誌名

      電子情報通信学会論文誌 J90-D・3

      ページ: 897-907

  • [雑誌論文] 音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識2007

    • 著者名/発表者名
      山本 俊一
    • 雑誌名

      日本ロボット学会誌 25・1

      ページ: 92-102

  • [雑誌論文] Drum Sound Recognition for Polyphonic Audio Signals by Adaptation and Matching of Spectral Templates with2007

    • 著者名/発表者名
      Kazuyoshi Yoshi
    • 雑誌名

      IEEE Transactions on Audio, Speech and Language Processing 15・1

      ページ: 333-345

  • [雑誌論文] Instrument Identification in Polyphonic Music : Feature Weighting to Minimize Influence of Sound Overlaps2007

    • 著者名/発表者名
      Tetsuro Kitahara
    • 雑誌名

      EURASIP Journal on Applied Signal Processing 2007

      ページ: 1-15

  • [雑誌論文] Computational Auditory Scene Analysis and Its Application to Robot Audition : Five Years Experience2007

    • 著者名/発表者名
      Hiroshi G. Okuno
    • 雑誌名

      Proceedings of ICKS 2007 1

      ページ: 69-76

  • [雑誌論文] 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重みづけおよび音楽的文脈の利用2006

    • 著者名/発表者名
      北原 鉄朗
    • 雑誌名

      電子情報通信学会論文誌 J89-D・12

      ページ: 2721-2733

  • [雑誌論文] データベース検索タスクにおける対話文脈を利用した音声言語理解2006

    • 著者名/発表者名
      神田 直之
    • 雑誌名

      情報処理学会論文誌 47・6

      ページ: 1802-1811

  • [雑誌論文] 伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法2006

    • 著者名/発表者名
      藤原 弘将
    • 雑誌名

      情報処理学会論文誌 47・6

      ページ: 1831-1843

  • [雑誌論文] 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上2006

    • 著者名/発表者名
      山本 俊一
    • 雑誌名

      ヒューマンインタフェース学会論文誌 18・2

      ページ: 203-212

  • [雑誌論文] Automatic Feature Weighting in Automatic Transcription of Specified Part in Pnlyphonic Music2006

    • 著者名/発表者名
      Katsutoshi Itoyama
    • 雑誌名

      Proceedings of ISMIR-2006 1

      ページ: 172-175

  • [雑誌論文] Missing-Feature based Speech Recognition for Two Simultaneous Speech Signals Separated by ICA with a pair of Humanoid Ears2006

    • 著者名/発表者名
      Ryu Takeda
    • 雑誌名

      Proceedings of IROS-2006 1

      ページ: 878-885

  • [雑誌論文] Real-Time Robot Audition System That Recognizes Simultaneous Speech in the Real World2006

    • 著者名/発表者名
      Shun'ichi Yamamoto
    • 雑誌名

      Proceedings of IROS-2006 4

      ページ: 5333-5338

  • [雑誌論文] Multi-Domain Spoken Dialogue System with Extensibility and Robustness against Speech Recognition Errors2006

    • 著者名/発表者名
      Kazunori Komatani
    • 雑誌名

      Proceedings of SIGdial Workshop on Discourse and Dialogue 1

      ページ: 9-17

  • [雑誌論文] Dynamic Help Generation by Estimating User's Mental Model in Spoken Dialogue Systems2006

    • 著者名/発表者名
      Yuichiro Fukubayashi
    • 雑誌名

      Proceedings of Interspeech-2006 2

      ページ: 1946-1949

  • [雑誌論文] AN ERROR CORRECTION FRAMEWORK BASED ON DRUM PATTERN PERIODICITY FOR IMPROVING DRUM SOUND DETECTION2006

    • 著者名/発表者名
      Kazuyoshi Yoshii
    • 雑誌名

      Proceedings of ICASSP-2006 V

      ページ: 237-240

  • [雑誌論文] ROBUST TRACKING OF MULTIPLE SOUND SOURCES BY SPATIAL INTEGRATION OF ROOM AND ROBOT MICROPHONE ARRAYS2006

    • 著者名/発表者名
      Kazuhiro Nakadai
    • 雑誌名

      Proceedings of ICASSP-2006 IV

      ページ: 929-932

  • [図書] PRICAI 2006 : Trends in Artificial Intelligence, LNCS 40992006

    • 著者名/発表者名
      Shun' ichi Yamamoto
    • 総ページ数
      1263
    • 出版者
      Springer Verlag
  • [図書] Advances in Applied Artificial Intelligence (IEA/AIE-2006), LNAI40312006

    • 著者名/発表者名
      Shun'ichi Yamamoto
    • 総ページ数
      1353
    • 出版者
      Springer Verlag
  • [産業財産権] 文単位検索方法,文単位検索装置,コンビュータブログラム,記憶媒体,及び文書記憶装置2006

    • 発明者名
      白松 俊
    • 権利者名
      京都大学
    • 産業財産権番号
      特願2006-224563号
    • 出願年月日
      2006-08-21

URL: 

公開日: 2008-05-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi