マルチモーダルコミュニケーションにおける音声とジェスチャの統合についての研究

研究課題

研究課題/領域番号	10480083
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	情報システム学(含情報図書館学)
研究機関	早稲田大学
研究代表者	白井克彦早稲田大学, 理工学部, 教授 (10063702)
研究分担者	山崎芳男早稲田大学, 国際情報通信研究センター, 教授 (10257199) 橋本周司早稲田大学, 理工学部, 教授 (60063806) 小林哲則早稲田大学, 理工学部, 教授 (30162001) 大川茂樹千葉工業大学, 情報ネットワーク学科, 助教授 (40306395)
研究期間 (年度)	1998 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	9,200千円 (直接経費: 9,200千円) 2000年度: 1,500千円 (直接経費: 1,500千円) 1999年度: 3,600千円 (直接経費: 3,600千円) 1998年度: 4,100千円 (直接経費: 4,100千円)
キーワード	マルチモーダルコミュニケーション / ジェスチャ認識 / 音声認識 / 部分隠れマルコフモデル / 複数話者 / 対話制御 / 誤解検出 / 汎用プラットフォーム / 複数話者対話 / 統計的発話交代モデル / 部分空間法 / 顔面像抽出 / 複合周波数帯域型音声認識 / 姿勢推定 / 音声対話システム汎用プラットフォーム / 音声対話システム / 対話コーパス / マルチモーダル / 隠れマルコフモデル / 顔方向認識 / 対話コーバス
研究概要	本研究では、人間が自然に発する音声およびジェスチャを認識し、統合して理解・生成するモデルを設計し、それら複数の情報伝達手段を用いたマルチモーダルコミュニケーションが可能な人間-機械対話システムを構築することを目的としている。円滑なコミュニケーションを行う上で重要なジェスチャ情報と人間の音声が、どのように統合されて理解・生成されるかを明確にするため、まず人間同士の対話を大量に収集して音声やジェスチャの役割を分析した。特に、人間同士の対話に頻出する繋ぎ語の音響的特徴分析と、頭部動作等のジェスチャの情報の分析を行った。次に、マルチモーダルコミュニケーションの統合理解モデルの基本となる音声およびジェスチャの認識アルゴリズムを検討した。雑音環境下においても頑健な複合周波数帯域型の音声認識手法を検討し、複数話者の音声認識アルゴリズムとして、統計的な話者モデルもしくは話者適応モデルと、発話交代を考慮した言語モデルをデコーダに組み込む手法を提案・評価した。ジェスチャ認識においては、確率過程モデルを精密に表現する部分隠れマルコフモデル(PHMM)を適用し、自由背景から安定した頭部動作認識を行うための顔領域抽出と顔方向認識手法に関して検討を行った。最後に、マルチモーダルコミュニケーション統合理解・生成モデルに基づいた人間-機械対話システムを実装した。まず、タスクに依存しないマルチモーダルコミュニケーションモデルとして、対話の多様性とシステム制御規則記述容易性のトレードオフを考慮した、規則の階層的表現手法を提案した。さらに、対話効率の向上を目的とした音声対話制御のモデル化と、音声対話システムの誤解検出を目的とした対話管理モデルの構築を行い、その上で音声やジェスチャの理解・生成を可能にする音声対話システム汎用プラットフォームを構築した。

報告書

(4件)

研究成果
(44件)

すべてその他

すべて文献書誌 (44件)

[文献書誌] 横山真男,白井克彦: "人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御"情報処理学会論文誌. Vol.40,No.2. 487-496 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] 村井則之,小林哲則: "話者性と発話交代を考慮した複数話者対話音声の認識"電子情報通信学会論文誌D-II. J83,No.11. 2465-2472 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] 益満健,小林哲則: "部分隠れマルコフモデルとそのジェスチャの認識への応用"情報処理学会論文誌. Vol.41,No.11. 3060-3069 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi,K.Shirai: "Controlling Gaze of Humanoid in Communication with Human"Proc.of International Conference on Intelligent Robots and Systems (IROS). Vol.1. 255-260 (1998)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi,K.Shirai: "Multimodal Communication Between Human and Robot"Proc.of International Wireless and Telecommunications Symposium (IWTS). 322-325 (1998)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] M.Yokoyama,K.Shirai: "Use of Non-Verbal Information in Communication between Human and Robot"Proc.of International Conference on Spoken Language Processing (ICSLP). 2351-2354 (1998)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi,K.Shirai: "Controlling Dialogue Strategy According to Performance of Processes"ESCA Workshop,Session5.2. 85-88 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] S.Okawa,K.Shirai: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"6th European Conference on Speech Communication and Technology : EUROSPEECH'99. Vol.2. 603-606 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] Y.Matsusaka,T.Kobayashi: "Multi-person Conversation Robot using Multi-modal Interface"SCI'99. Vol.7. 450-455 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] N.Murai,T.Kobayashi: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER"Proc.of International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vol.3. 1575-1578 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] K.Aoyama,K.Shirai: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"2000 IEEE International Conference on Systems Man and Cybernetics (SMC2000). 1354-1359 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] K.Aoyama,K.Shirai: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of International Conference on Spoken Language Processing (ICSLP). (CD-ROM). (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] M.Murakami,K.Shirai: "Accurate Extraction of Human Face Area using Subspace Method and Genetic Algorithm"Proc.of International Conference Multimedia and Expo. 411-414 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] M.Yokoyama, K.Shirai: "Controlling Non-verbal Information in Speaker-changing For Spoken Dialogue Interface of Humanoid Robot"Transactions of IPSJ. Vol.40, No.2. 487-496 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] N.Murai, T.Kobayashi: "Dictation of Multiparty Conversation Considering Speaker Individuality and Turn Taking"Transactions of IEICE. D-II, Vol.J83-D-II, No.11. 2465-2472 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] K.Masumitsu, T.Kobayashi: "Partly-Hidden Markov Model and Its Application To Gesture Recognition"Transactions of IPSJ. Vol.41, No.11. 3060-3069 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi, K.Shirai: "Controlling Gaze of Humanoid in Communication with Human"Proc.of International Conference onIntelligent Robots and Systems (IROS). Vol.1. 255-260 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi, K.Shirai: "Multimodal Communication Between Human and Robot"Proc.of International Wireless and Telecommunications Symposium (IWIS). 322-325 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] M.Yokoyama, K.Shirai: "Use of Non-Verbal Information in Communication between Human and Robot"Proc.of International Conference on Spoken Language Processing (ICSLP). 2351-2354 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] H.Kikuchi, K.Shirai: "Controlling Dialogue Strategy According to Performance of Processes"ESCA Workshop. Session5.2. 85-88 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] S.Okawa, K.Shirai: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"6th European Conference on Speech Communication and Technology : EUROSPEECH'99. Vol.2. 603-606 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] Y.Matsusaka, T.Kobayashi: "Multi-person Conversation Robot using Multi-modal Interface"SCI'99. Vol.7. 450-455 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] N.Murai, T.Kobayashi: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER MODEL"Proc.of International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vol.3. 1575-1578 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] K.Aoyama, K.Shirai: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"2000 IEEE International Conference on Systems Man and Cybemetics (SMC2000). 1354-1359 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] K.Aoyama, K.Shirai: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of International Conference on Spoken Language Processing (ICSLP), CD-ROM. (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] M.Murakami, K.Shirai: "Accurate Extraction of Human Face Area using Subspace Method and Genetic Algorithm"Proc.of International Conference Multimedia and Expo. 411-414 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2000 研究成果報告書概要
[文献書誌] Kazumi Aoyama: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"IEEE Proc.of SMC2000. 1354-1359 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Kazumi Aoyama: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of ICSLP 2000. CD-ROM (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 村井則之: "話者性と発話交代を考慮した複数話者対話音声の認識"電子情報通信学会論文誌D-II. vol.J83,No.11. 2465-2472 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 益満健: "部分隠れマルコフモデルとそのジェスチャの認識への応用"情報処理学会論文誌. vol.41,No.11. 3060-3069 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Makoto Murakami: "Accurate Extraction of Human Face Area using Subspace Method and Genetic Algorithm"Proc.of International Conference Multimedia and Expo. 411-414 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Noriyuki Murai: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER MODEL"Proc.of ICASSP 2000. Vol.3. 1575-1578 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Hideaki Kikuchi 他: "Controlling Dialogue Strategy According to Performance of Processes"Proc of ESCA Workshop. 85-88 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] Shigeki Okawa 他: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"Proc. of EUROSPEECH'99. Vol.2. 603-606 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 中島雄大他: "マルチバンド型音声認識のための部分帯域特徴量の情報量評価"電子情報通信学会技術報告. SP99-97. 25-30 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 青山一美他: "音声対話システム汎用ブラットフォ-ムの検討"情報処理学会研究報告. SLP-30. 7-12 (2000)
- 関連する報告書
  1999 実績報告書
[文献書誌] Yosuke Matsusaka 他: "Multi-person Conversation via Multi-modal Interface"Proc. of EUROSPEECH '99. Vol.4. 1723-1726 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] Shigeki Ohira: "Proposal and Evaluation of Significant Word Selection Method."Proc. of the First NTCIR Workshop on R-JTRTR. 109-116 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] Hideaki Kikuchi Katsuhiko Shirai: "Controlling Gaze of Humanoid in Communication with Human" Proc.Of International conference on Intelligent Robots and Systems. Vol.1. 255-260 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] 横山真男:白井克彦: "人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御" 情報処理学会論文誌. 2月号. (1999)
- 関連する報告書
  1998 実績報告書
[文献書誌] Masao Yokoyama: Katsuhiko Shirai: "Use of Non-Verbal Information in Communication between Human and Robot" Proc.Of International conference on Spoken Language Procesing. 2351-2354 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] Hideaki Kikuchi : Katsuhiko Shirai: "Multimodal Communication Between Human and Robot" Proc.of International Wireless and Telecommunications Symposium. 322-325 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] 益満健:白井克彦: "部分隠れマルコフモデルとそのジェスチャー認識への応用" 電子情報通信学会技術研究報告. PRMU97-203. 35-62 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] 田窪行則:白井克彦: "岩波書店" 岩波講座言語の科学 2音声, 249 (1998)
- 関連する報告書
  1998 実績報告書

マルチモーダルコミュニケーションにおける音声とジェスチャの統合についての研究

研究代表者

白井 克彦 早稲田大学, 理工学部, 教授 (10063702)

9,200千円 (直接経費: 9,200千円)

報告書

研究成果

[文献書誌] 横山真男,白井克彦: "人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御"情報処理学会論文誌. Vol.40,No.2. 487-496 (1999)

説明

関連する報告書

[文献書誌] 村井則之,小林哲則: "話者性と発話交代を考慮した複数話者対話音声の認識"電子情報通信学会論文誌D-II. J83,No.11. 2465-2472 (2000)

説明

関連する報告書

[文献書誌] 益満健,小林哲則: "部分隠れマルコフモデルとそのジェスチャの認識への応用"情報処理学会論文誌. Vol.41,No.11. 3060-3069 (2000)

説明

関連する報告書

[文献書誌] H.Kikuchi,K.Shirai: "Controlling Gaze of Humanoid in Communication with Human"Proc.of International Conference on Intelligent Robots and Systems (IROS). Vol.1. 255-260 (1998)

説明

関連する報告書

[文献書誌] H.Kikuchi,K.Shirai: "Multimodal Communication Between Human and Robot"Proc.of International Wireless and Telecommunications Symposium (IWTS). 322-325 (1998)

説明

関連する報告書

[文献書誌] M.Yokoyama,K.Shirai: "Use of Non-Verbal Information in Communication between Human and Robot"Proc.of International Conference on Spoken Language Processing (ICSLP). 2351-2354 (1998)

説明

関連する報告書

[文献書誌] H.Kikuchi,K.Shirai: "Controlling Dialogue Strategy According to Performance of Processes"ESCA Workshop,Session5.2. 85-88 (1999)

説明

関連する報告書

[文献書誌] S.Okawa,K.Shirai: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"6th European Conference on Speech Communication and Technology : EUROSPEECH'99. Vol.2. 603-606 (1999)

説明

関連する報告書

[文献書誌] Y.Matsusaka,T.Kobayashi: "Multi-person Conversation Robot using Multi-modal Interface"SCI'99. Vol.7. 450-455 (1999)

説明

関連する報告書

[文献書誌] N.Murai,T.Kobayashi: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER"Proc.of International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vol.3. 1575-1578 (2000)

説明

関連する報告書

[文献書誌] K.Aoyama,K.Shirai: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"2000 IEEE International Conference on Systems Man and Cybernetics (SMC2000). 1354-1359 (2000)

説明

関連する報告書

[文献書誌] K.Aoyama,K.Shirai: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of International Conference on Spoken Language Processing (ICSLP). (CD-ROM). (2000)

説明

関連する報告書

[文献書誌] M.Murakami,K.Shirai: "Accurate Extraction of Human Face Area using Subspace Method and Genetic Algorithm"Proc.of International Conference Multimedia and Expo. 411-414 (2000)

説明

関連する報告書

[文献書誌] M.Yokoyama, K.Shirai: "Controlling Non-verbal Information in Speaker-changing For Spoken Dialogue Interface of Humanoid Robot"Transactions of IPSJ. Vol.40, No.2. 487-496 (1999)

説明

関連する報告書

[文献書誌] N.Murai, T.Kobayashi: "Dictation of Multiparty Conversation Considering Speaker Individuality and Turn Taking"Transactions of IEICE. D-II, Vol.J83-D-II, No.11. 2465-2472 (2000)

説明

関連する報告書

[文献書誌] K.Masumitsu, T.Kobayashi: "Partly-Hidden Markov Model and Its Application To Gesture Recognition"Transactions of IPSJ. Vol.41, No.11. 3060-3069 (2000)

説明

関連する報告書

[文献書誌] H.Kikuchi, K.Shirai: "Controlling Gaze of Humanoid in Communication with Human"Proc.of International Conference onIntelligent Robots and Systems (IROS). Vol.1. 255-260 (1998)

説明

関連する報告書

[文献書誌] H.Kikuchi, K.Shirai: "Multimodal Communication Between Human and Robot"Proc.of International Wireless and Telecommunications Symposium (IWIS). 322-325 (1998)

説明

関連する報告書

[文献書誌] M.Yokoyama, K.Shirai: "Use of Non-Verbal Information in Communication between Human and Robot"Proc.of International Conference on Spoken Language Processing (ICSLP). 2351-2354 (1998)

説明

関連する報告書

[文献書誌] H.Kikuchi, K.Shirai: "Controlling Dialogue Strategy According to Performance of Processes"ESCA Workshop. Session5.2. 85-88 (1999)

説明

関連する報告書

[文献書誌] S.Okawa, K.Shirai: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"6th European Conference on Speech Communication and Technology : EUROSPEECH'99. Vol.2. 603-606 (1998)

説明

関連する報告書

[文献書誌] Y.Matsusaka, T.Kobayashi: "Multi-person Conversation Robot using Multi-modal Interface"SCI'99. Vol.7. 450-455 (1999)

説明

関連する報告書

[文献書誌] N.Murai, T.Kobayashi: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER MODEL"Proc.of International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vol.3. 1575-1578 (2000)

説明

関連する報告書

[文献書誌] K.Aoyama, K.Shirai: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"2000 IEEE International Conference on Systems Man and Cybemetics (SMC2000). 1354-1359 (2000)

説明

関連する報告書

[文献書誌] K.Aoyama, K.Shirai: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of International Conference on Spoken Language Processing (ICSLP), CD-ROM. (2000)

説明

白井克彦早稲田大学, 理工学部, 教授 (10063702)

[文献書誌] 中島雄大他: "マルチバンド型音声認識のための部分帯域特徴量の情報量評価"電子情報通信学会技術報告. SP99-97. 25-30 (1999)

[文献書誌] 青山一美他: "音声対話システム汎用ブラットフォ-ムの検討"情報処理学会研究報告. SLP-30. 7-12 (2000)

[文献書誌] 横山真男:白井克彦: "人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御" 情報処理学会論文誌. 2月号. (1999)

[文献書誌] 益満健:白井克彦: "部分隠れマルコフモデルとそのジェスチャー認識への応用" 電子情報通信学会技術研究報告. PRMU97-203. 35-62 (1998)

[文献書誌] 田窪行則:白井克彦: "岩波書店" 岩波講座言語の科学 2音声, 249 (1998)