研究課題/領域番号 |
10480083
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 早稲田大学 |
研究代表者 |
白井 克彦 早稲田大学, 理工学部, 教授 (10063702)
|
研究分担者 |
山崎 芳男 早稲田大学, 国際情報通信研究センター, 教授 (10257199)
橋本 周司 早稲田大学, 理工学部, 教授 (60063806)
小林 哲則 早稲田大学, 理工学部, 教授 (30162001)
大川 茂樹 千葉工業大学, 情報ネットワーク学科, 助教授 (40306395)
|
研究期間 (年度) |
1998 – 2000
|
研究課題ステータス |
完了 (2000年度)
|
配分額 *注記 |
9,200千円 (直接経費: 9,200千円)
2000年度: 1,500千円 (直接経費: 1,500千円)
1999年度: 3,600千円 (直接経費: 3,600千円)
1998年度: 4,100千円 (直接経費: 4,100千円)
|
キーワード | マルチモーダルコミュニケーション / ジェスチャ認識 / 音声認識 / 部分隠れマルコフモデル / 複数話者 / 対話制御 / 誤解検出 / 汎用プラットフォーム / 複数話者対話 / 統計的発話交代モデル / 部分空間法 / 顔面像抽出 / 複合周波数帯域型音声認識 / 姿勢推定 / 音声対話システム汎用プラットフォーム / 音声対話システム / 対話コーパス / マルチモーダル / 隠れマルコフモデル / 顔方向認識 / 対話コーバス |
研究概要 |
本研究では、人間が自然に発する音声およびジェスチャを認識し、統合して理解・生成するモデルを設計し、それら複数の情報伝達手段を用いたマルチモーダルコミュニケーションが可能な人間-機械対話システムを構築することを目的としている。 円滑なコミュニケーションを行う上で重要なジェスチャ情報と人間の音声が、どのように統合されて理解・生成されるかを明確にするため、まず人間同士の対話を大量に収集して音声やジェスチャの役割を分析した。特に、人間同士の対話に頻出する繋ぎ語の音響的特徴分析と、頭部動作等のジェスチャの情報の分析を行った。 次に、マルチモーダルコミュニケーションの統合理解モデルの基本となる音声およびジェスチャの認識アルゴリズムを検討した。雑音環境下においても頑健な複合周波数帯域型の音声認識手法を検討し、複数話者の音声認識アルゴリズムとして、統計的な話者モデルもしくは話者適応モデルと、発話交代を考慮した言語モデルをデコーダに組み込む手法を提案・評価した。ジェスチャ認識においては、確率過程モデルを精密に表現する部分隠れマルコフモデル(PHMM)を適用し、自由背景から安定した頭部動作認識を行うための顔領域抽出と顔方向認識手法に関して検討を行った。 最後に、マルチモーダルコミュニケーション統合理解・生成モデルに基づいた人間-機械対話システムを実装した。まず、タスクに依存しないマルチモーダルコミュニケーションモデルとして、対話の多様性とシステム制御規則記述容易性のトレードオフを考慮した、規則の階層的表現手法を提案した。さらに、対話効率の向上を目的とした音声対話制御のモデル化と、音声対話システムの誤解検出を目的とした対話管理モデルの構築を行い、その上で音声やジェスチャの理解・生成を可能にする音声対話システム汎用プラットフォームを構築した。
|