2003 年度実績報告書

ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究

研究課題

研究課題/領域番号	15200015
研究種目	基盤研究(A)
研究機関	京都大学
研究代表者	奥乃博京都大学, 情報学研究科, 教授 (60318201)
研究分担者	和田俊和和歌山大学, システム工学部, 教授 (00231035) 中臺一博 (株)ホンダ・リサーチ・インスティチュート・ジャパン, シニア・リサーチャー駒谷和範京都大学, 情報学研究科, 助手 (40362579) 河原達也京都大学, 学術情報メディアセンター, 教授 (00234104) 後藤真孝独立行政法人産業技術総合研究所, 情報処理研究部門, 研究員
キーワード	ロボット聴覚 / ミッシングフィーチャ理論 / エピゾセンサー / パラメトリックスピーカ / 最近傍識別器 / 色ターゲット検出 / 柔軟な音声対話システム / 音楽情報処理
研究概要	研究第1年目として「距離」の概念に基づくインタラクションモデル化とそれに必要なヒューマノイドロボットの改造,および個々のセンサーによる認識のための基本アルゴリズムを開発した. (1)人とのインタラクションの概念化とそれに基づいたヒューマノイドロボットの改造:ロボットは自分自身の知覚機能の限界を認識した上で聴覚を用いてインタラクションすべきであるという基本概念を設定し,近接学による距離の概念を導入した.親密距離(〜45cm)でのセンサとしての皮膚センサを開発し,社会距離・公共距離(2.4m〜)でささやく機能を実現するために超指向性スピーカを開発した.提案手法の有効性を簡単なデモで実証した. (2)アクティブ方向通過型フィルタ(ADPF)の高性能化:混合音から特定の方向からの音を分離するADPFの性能向上のために,散乱理論により頭部音響伝達関数の近似精度を向上させた結果,30度以上の周辺領域で音源定位と音源分離性能を大幅に向上させることができた.異種のヒューマノイドロボツト,SIG2とReplieに実装し,本手法の一般性を確認した. (3)ミッシングフィーチャ理論に基づく分離音声認識システムの開発:従来の音声認識では方向と話者に依存した音響モデルを使用し3話者同時発話認識を行っていた.話者独立の単一の音響モデルで済ませるために,動的に欠落特徴が扱えるミッシングフィーチャ理論に基づいた音声認識システムを開発し,演繹ミッシングマスクにより,分離音の認識精度が大幅に向上することを確認した. (4)音一般の認識と対話システムへの展開:音声を用いた柔軟な対話システム構築のために,音声認識誤りに確信度を導入し,不要な問い合わせを解消する方法を開発した.また,非音声の認識のために,擬音語認識,楽器音認識にも取り組んだ. (5)最近傍識別器を用いた色ターゲット検出:ADPFやLip-Readingで使用する肌色検出のために,ロバストな識別手法を開発した.

研究成果
(26件)

すべてその他

すべて文献書誌 (26件)

[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai, Tino Lourens, Hiroaki Kitano: "Sound and Visual Tracking for Humanoid Robot"Applied Intelligence. Vol.20,No.3. 253-266 (2004)
[文献書誌] 北原鉄朗, 後藤真孝, 奥乃博: "音響的類似性を反映した楽器の階層表現の獲得とそれに基づく未知楽器のカテゴリーレベルの音源同定"情報処理学会論文誌. Vol.45.No.3. 680-689 (2004)
[文献書誌] 山肩洋子, 河原達也, 奥乃博, 美濃導彦: "音声対話システムにおける物体指示のための信念ネットワークを用いた曖昧性の解消"人工知能学会誌. Vol.19,No.1F. 47-56 (2004)
[文献書誌] 北原鉄朗, 後藤孝, 奥乃博: "音高による音色変化に着目した楽器音の音源同定:F0依存多次元正規分布に基づく識別手法"情報処理学会論文誌. Vol.44,No.10. 2448-2458 (2003)
[文献書誌] 中臺一博, 日台健一, 奥乃博, 溝口博, 北野宏明: "ヒューマノイドを対象にした視聴覚統合による実時間人物追跡:アクティブオーディションと顔認識の統合"ロボット学会誌. Vol.21,No.5. 517-525 (2003)
[文献書誌] 駒谷和範, 鹿島博晶, 田中克明, 河原達也: "複合的言語制約に基づくキーフレーズ検出を用いた汎用的なデータベース検索音声対話プラットフォーム"情報処理学会論文誌. Vol.44,No.5. 1333-1342 (2003)
[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai: "Active audition for humanoid robots that can listen to three simultaneous talkers"Journal of the Acoustical Society of America. Vol.113,No.4,Pt.2 of 2. 2230-2230 (2004)
[文献書誌] 和田俊和: "最近傍識別器を用いた色ターゲット検出"情報処理学会論文誌:CVIM. No.8. 126-135 (2003)
[文献書誌] 奥乃博, 中臺一博: "ロボット聴覚の課題と現状"情報処理. Vol.44,No.11. 1138-1144 (2003)
[文献書誌] Kazuhiro Nakadai, Daisuke Matsuura, Hiroshi G.Okuno, Hiroaki Kitano: "Applying Scattering Theory to Robot Audition System"Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS-2003). 1147-1152 (2003)
[文献書誌] M.Seki, Toshikazu Wada, H.Fujiwara, K.Sumi: "Background Subtraction based on Cooccurrence of Image Variations"Proceedings of Computer Vison and Pattern Recognition (CVPR-2003). 65-72 (2003)
[文献書誌] Yohei Sakuraba, Hiroshi G.Okuno: "Note Recognition of Polyphonic Music by Using Timbre Similarity and Direction Proximity"Proceedings of International Computer Music Conference (ICM2003). 167-170 (2003)
[文献書誌] Kazuhiro Nakadai, Hiroshi G.Okuno, Hiroaki Kitano: "Realizing Personality in Audio-Visually Triggered Non-verbal Behaviors"Proceedings of IEEE-RAS International Conference on Robots and Automation (ICRA-2003). 392-397 (2003)
[文献書誌] Kazuhiro Hakadai, Hiroshi G.Okuno, Hiroaki Kitano: "Robot Recognizes Three Simultaneous Speech By Active Audition"Proceedings of IEEE-RAS International Conference on Robots and Automation (ICRA-2003). 398-403 (2003)
[文献書誌] Kazuhiro Nakadai, D.Matsuura, Hiroshi G.Okuno, Hiroshi Tsujino: "Improvement of Three Simultaneous Speech Recognition by Using AV Integration and Scattering Theory for Humanoid"Proceedings of Audio Visual Spoken Processing (AVSP-2003). 157-162 (2003)
[文献書誌] Kazunori Komatani, S.Ueno, Tatsuya Kawahara, Hiroshi G.Okuno: "User Modeling in Spoken Dialogue Systems for Flexible Guidance Generation"Proceedings of the Eighth European Conference on Speech communication and Technology (Eurospeech-2003). 745-748 (2003)
[文献書誌] Kazushi Ishihara, Yasushi Tsubota, Hiroshi G.Okuno: "Automatic Transformation of Environmental Sounds into Sound-Imitation Words Based on Japanese Syllable Structure"Proceedings of the Eighth European Conferenece on Speech communication and Technology (Eurospeech-2003). 3185-3188 (2003)
[文献書誌] Kazuhiro Nakadai, D.Matsuura, Hiroshi G.Okuno, Hiroshi Tsujino: "Three Simultaneous Speech Recognition by Integration of Active Audition and Face Recognition for Humanoid"Proceedings of the Eighth European Conferenece on Speech communication and Technology (Eurospeech-2003). 2705-2708 (2003)
[文献書誌] Tatsuya Kawahara, Ryosuke Ito, Kazunori Komatani: "Spoken Dialogue System for Queries on Appliance Manuals using Hierarchical Confirmation Strategy"Proceedings of the Eighth European Conferenece on Speech communication and Technology (Eurospeech-2003). 1701-1704 (2003)
[文献書誌] Kazunori Komatani, S.Ueno, Tatsuya Kawahara, Hiroshi G.Okuno: "Flexible Guidance Generation using User Model in Spoken Dialogue Systems"Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL 2003). 256-263 (2003)
[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Musical Instrument Identification based on F0-dependent Multivariate Normal Distribution"Proceeding of 2003 International Conference on Multimedia and Expo (ICME 2003). Vol.III. 405-409 (2003)
[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Pitch-dependent Musical Instrument Indentification and Its Application to Musical Sound Ontology"Developments in Applied Artificial Intelligence. LNAI 2718. 112-122 (2003)
[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai, Hiroaki Kitano: "Design and Implementation of Personality of Humanoids in Human Humanoid Non-verbal Interaction"Developments in Applied Artificial Intelligence. LNAI 2718. 662-673 (2003)
[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai: "Real-time Sound Source Localization and Separation based on Active Audio-Visual Integration"Computational Methods in Neural Modeling. LNCS 2686. 118-125 (2003)
[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Musical Instrument Identification based on F0-dependent Multivariate Normal distribution"Proceedings of 2003 International Conference on Acoustics, Speech and Signal Processing (ICASSP'2003). Vol.5Vol.III. 421-424 (2003)
[文献書誌] 奥乃博: "AI事典、第2版"共立出版. 544 (2003)

2003 年度 実績報告書

ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究

研究代表者

奥乃 博 京都大学, 情報学研究科, 教授 (60318201)

研究成果

[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai, Tino Lourens, Hiroaki Kitano: "Sound and Visual Tracking for Humanoid Robot"Applied Intelligence. Vol.20,No.3. 253-266 (2004)

[文献書誌] 北原鉄朗, 後藤真孝, 奥乃博: "音響的類似性を反映した楽器の階層表現の獲得とそれに基づく未知楽器の カテゴリーレベルの音源同定"情報処理学会論文誌. Vol.45.No.3. 680-689 (2004)

[文献書誌] 山肩洋子, 河原達也, 奥乃博, 美濃導彦: "音声対話システムにおける物体指示のための信念ネットワークを用いた曖昧性の解消"人工知能学会誌. Vol.19,No.1F. 47-56 (2004)

[文献書誌] 北原鉄朗, 後藤孝, 奥乃博: "音高による音色変化に着目した楽器音の音源同定:F0依存多次元正規分布に基づく識別手法"情報処理学会論文誌. Vol.44,No.10. 2448-2458 (2003)

[文献書誌] 中臺一博, 日台健一, 奥乃博, 溝口博, 北野宏明: "ヒューマノイドを対象にした視聴覚統合による実時間人物追跡:アクティブオーディションと顔認識の統合"ロボット学会誌. Vol.21,No.5. 517-525 (2003)

[文献書誌] 駒谷和範, 鹿島博晶, 田中克明, 河原達也: "複合的言語制約に基づくキーフレーズ検出を用いた汎用的なデータベース検索音声対話プラットフォーム"情報処理学会論文誌. Vol.44,No.5. 1333-1342 (2003)

[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai: "Active audition for humanoid robots that can listen to three simultaneous talkers"Journal of the Acoustical Society of America. Vol.113,No.4,Pt.2 of 2. 2230-2230 (2004)

[文献書誌] 和田俊和: "最近傍識別器を用いた色ターゲット検出"情報処理学会論文誌:CVIM. No.8. 126-135 (2003)

[文献書誌] 奥乃博, 中臺一博: "ロボット聴覚の課題と現状"情報処理. Vol.44,No.11. 1138-1144 (2003)

[文献書誌] Kazuhiro Nakadai, Daisuke Matsuura, Hiroshi G.Okuno, Hiroaki Kitano: "Applying Scattering Theory to Robot Audition System"Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS-2003). 1147-1152 (2003)

[文献書誌] M.Seki, Toshikazu Wada, H.Fujiwara, K.Sumi: "Background Subtraction based on Cooccurrence of Image Variations"Proceedings of Computer Vison and Pattern Recognition (CVPR-2003). 65-72 (2003)

[文献書誌] Yohei Sakuraba, Hiroshi G.Okuno: "Note Recognition of Polyphonic Music by Using Timbre Similarity and Direction Proximity"Proceedings of International Computer Music Conference (ICM2003). 167-170 (2003)

[文献書誌] Kazuhiro Nakadai, Hiroshi G.Okuno, Hiroaki Kitano: "Realizing Personality in Audio-Visually Triggered Non-verbal Behaviors"Proceedings of IEEE-RAS International Conference on Robots and Automation (ICRA-2003). 392-397 (2003)

[文献書誌] Kazuhiro Hakadai, Hiroshi G.Okuno, Hiroaki Kitano: "Robot Recognizes Three Simultaneous Speech By Active Audition"Proceedings of IEEE-RAS International Conference on Robots and Automation (ICRA-2003). 398-403 (2003)

[文献書誌] Kazuhiro Nakadai, D.Matsuura, Hiroshi G.Okuno, Hiroshi Tsujino: "Improvement of Three Simultaneous Speech Recognition by Using AV Integration and Scattering Theory for Humanoid"Proceedings of Audio Visual Spoken Processing (AVSP-2003). 157-162 (2003)

[文献書誌] Kazunori Komatani, S.Ueno, Tatsuya Kawahara, Hiroshi G.Okuno: "User Modeling in Spoken Dialogue Systems for Flexible Guidance Generation"Proceedings of the Eighth European Conference on Speech communication and Technology (Eurospeech-2003). 745-748 (2003)

[文献書誌] Tatsuya Kawahara, Ryosuke Ito, Kazunori Komatani: "Spoken Dialogue System for Queries on Appliance Manuals using Hierarchical Confirmation Strategy"Proceedings of the Eighth European Conferenece on Speech communication and Technology (Eurospeech-2003). 1701-1704 (2003)

[文献書誌] Kazunori Komatani, S.Ueno, Tatsuya Kawahara, Hiroshi G.Okuno: "Flexible Guidance Generation using User Model in Spoken Dialogue Systems"Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL 2003). 256-263 (2003)

[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Musical Instrument Identification based on F0-dependent Multivariate Normal Distribution"Proceeding of 2003 International Conference on Multimedia and Expo (ICME 2003). Vol.III. 405-409 (2003)

[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Pitch-dependent Musical Instrument Indentification and Its Application to Musical Sound Ontology"Developments in Applied Artificial Intelligence. LNAI 2718. 112-122 (2003)

[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai, Hiroaki Kitano: "Design and Implementation of Personality of Humanoids in Human Humanoid Non-verbal Interaction"Developments in Applied Artificial Intelligence. LNAI 2718. 662-673 (2003)

[文献書誌] Hiroshi G.Okuno, Kazuhiro Nakadai: "Real-time Sound Source Localization and Separation based on Active Audio-Visual Integration"Computational Methods in Neural Modeling. LNCS 2686. 118-125 (2003)

[文献書誌] Tetsuro Kitahara, Masataka Goto, Hiroshi G.Okuno: "Musical Instrument Identification based on F0-dependent Multivariate Normal distribution"Proceedings of 2003 International Conference on Acoustics, Speech and Signal Processing (ICASSP'2003). Vol.5Vol.III. 421-424 (2003)

[文献書誌] 奥乃博: "AI事典、第2版"共立出版. 544 (2003)

2003 年度実績報告書

奥乃博京都大学, 情報学研究科, 教授 (60318201)

[文献書誌] 北原鉄朗, 後藤真孝, 奥乃博: "音響的類似性を反映した楽器の階層表現の獲得とそれに基づく未知楽器のカテゴリーレベルの音源同定"情報処理学会論文誌. Vol.45.No.3. 680-689 (2004)