1999 Fiscal Year Annual Research Report
マルチモ-ダルコミュニケ-ションにおける音声とジェスチャの統合についての研究
Project/Area Number |
10480083
|
Research Institution | Waseda University |
Principal Investigator |
白井 克彦 早稲田大学, 理工学部, 教授 (10063702)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 芳男 早稲田大学, 理工学総合研究センター, 教授 (10257199)
橋本 周司 早稲田大学, 理工学部, 教授 (60063806)
小林 哲則 早稲田大学, 理工学部, 教授 (30162001)
大川 茂樹 千葉工業大学, 情報ネットワーク学科, 助教授 (40306395)
|
Keywords | 複合周波数帯域型音声認識 / 姿勢推定 / マルチモーダルコミュニケーション / 音声対話システム汎用プラットフォーム / 対話制御 / 音声対話システム / 対話コーパス |
Research Abstract |
本年度は、マルチモーダル対話データの分析結果に基づき、マルチモーダルコミュニケーションの統合理解モデルの基本となる音声およびジェスチャの認識アルゴリズムを検討した。また、マルチモーダルコミュニケーションモデルとして、タスクに依存しない汎用的なモデルを検討、構築した。 まず、音声認識アルゴリズムとして、狭い部分周波数帯域の音響特徴量を独立に計算した後それらを再統合する複合周波数帯域型音声認識の手法を検討し、特に部分周波数帯域より得られる特徴量の情報量を基準とした性能評価方法を検討した。提案した評価方法に基づき、最適な分割周波数を設定した上で音素認識実験を行った結果、全帯域システムに対して最大11.2%の認識誤り率現象を達成した。 また、ジェスチャ認識について、照明変化への対応、人物の胴体部の探索については逐次更新型の色の混合分布モデルを用いることで実現し、カメラ移動中での推定や静止動作の推定も可能な姿勢推定システムは、色の混合分布モデルおよび人物の形状モデルおよび姿勢データベースを用いることにより実現できることを確認した。 タスクに依存しないマルチモーダルコミュニケーションモデルとして、対話の多様性とシステム制御規則記述容易性のトレードオフを考慮した、規則の階層的表現手法を提案した。具体的に、論文探索タスクについて実際の対話データに対する規則の記述力を評価し、対話の特徴と規則の記述力との関係を調べた。また、こうした評価による規則修正へのフィードバックが有効であることを確認した。さらに、提案した手法により、音声やジェスチャの理解・生成を可能にする音声対話システム汎用プラットフォームを構築し、複数のタスクに対して動作確認をした。
|
-
[Publications] Hideaki Kikuchi 他: "Controlling Dialogue Strategy According to Performance of Processes"Proc of ESCA Workshop. 85-88 (1999)
-
[Publications] Shigeki Okawa 他: "A Recombination Strategy for Multi-band Speech Recognition Based on Mutual Information Criterion"Proc. of EUROSPEECH'99. Vol.2. 603-606 (1999)
-
[Publications] 中島 雄大 他: "マルチバンド型音声認識のための部分帯域特徴量の情報量評価"電子情報通信学会技術報告. SP99-97. 25-30 (1999)
-
[Publications] 青山 一美 他: "音声対話システム汎用ブラットフォ-ムの検討"情報処理学会研究報告. SLP-30. 7-12 (2000)
-
[Publications] Yosuke Matsusaka 他: "Multi-person Conversation via Multi-modal Interface"Proc. of EUROSPEECH '99. Vol.4. 1723-1726 (1999)
-
[Publications] Shigeki Ohira: "Proposal and Evaluation of Significant Word Selection Method."Proc. of the First NTCIR Workshop on R-JTRTR. 109-116 (1999)