2000 Fiscal Year Annual Research Report
マルチモーダルコミュニケーションにおける音声とジェスチャの統合についての研究
Project/Area Number |
10480083
|
Research Institution | Waseda University |
Principal Investigator |
白井 克彦 早稲田大学, 理工学部, 教授 (10063702)
|
Co-Investigator(Kenkyū-buntansha) |
山崎 芳男 早稲田大学, 国際情報通信研究センター, 教授 (10257199)
橋本 周司 早稲田大学, 理工学部, 教授 (60063806)
小林 哲則 早稲田大学, 理工学部, 教授 (30162001)
大川 茂樹 千葉工業大学, 情報ネットワーク学科, 助教授 (40306395)
|
Keywords | マルチモーダルコミュニケーション / 複数話者対話 / 統計的発話交代モデル / 誤解検出 / 部分隠れマルコフモデル / ジェスチャ認識 / 部分空間法 / 顔面像抽出 |
Research Abstract |
本年度は、前年度までの成果である、マルチモーダル対話データの分析結果、およびマルチモーダルコミュニケーション統合理解モデルとして提案したタスク非依存の汎用的対話モデルを用いて、実用的なマルチモーダルコミュニケーションシステムの構築および評価を行った。 まず、複数話者の音声認識アルゴリズムとして、統計的な話者モデル若しくは話者適応モデルと、発話交代を考慮した言語モデルをデコーダに組み込む手法を提案・評価した。その結果、発話内容の認識と発話区間の認識を別個に行う方法に比べ、発話内容の認識で最大29.5%、発話者の認識で93.0%の誤りが改善された。 次に、音声対話システムと人間との確認発話において、システムの誤解検出に有効なパラメータを検討するため、システムの確認に対するユーザ応答の特徴を分析した。その結果、ポーズ長と発話継続長が直接確認において誤解検出のパラメータとなり得ることが確認された。さらに、判別分析を用いた誤解検出法を検討した結果、ポーズ長と発話継続長のみから84%もの精度で確認対話でのシステムの誤解を検出可能であることを示した。 また、時系列パターン認識のための新たな確率モデルとして、部分隠れマルコフモデル(PHHM)を提案し、これをジェスチャ認識に適用した。その結果、通常のHMMによる最良の結果に比べ2.1ポイント改善し、その有効性が確認された。さらに、種々の背景をもつ複数画像からの顔画像抽出手法についても検討を加え、部分空間法と遺伝的アルゴリズムに基づき3つの部分空間を構成する手法によって精度の改善が見られた。 実用的なマルチモーダルコミュニケーションシステムとして、視線や表情の表現、うなずきなどの身振りによって、より円滑な対話を実現する複数話者の対話システムを構築した。
|
-
[Publications] Kazumi Aoyama: "Controlling Non-verbal Information in Speaker-change for Spoken Dialogue"IEEE Proc.of SMC2000. 1354-1359 (2000)
-
[Publications] Kazumi Aoyama: "DESIGNING A DOMAIN INDEPENDENT PLATFORM OF SPOKEN DIALOGUE SYSTEM"Proc.of ICSLP 2000. CD-ROM (2000)
-
[Publications] 村井則之: "話者性と発話交代を考慮した複数話者対話音声の認識"電子情報通信学会論文誌D-II. vol.J83,No.11. 2465-2472 (2000)
-
[Publications] 益満健: "部分隠れマルコフモデルとそのジェスチャの認識への応用"情報処理学会論文誌. vol.41,No.11. 3060-3069 (2000)
-
[Publications] Makoto Murakami: "Accurate Extraction of Human Face Area using Subspace Method and Genetic Algorithm"Proc.of International Conference Multimedia and Expo. 411-414 (2000)
-
[Publications] Noriyuki Murai: "DICTATION OF MULTIPARTY CONVERSATION USING STATISTICAL TURN TAKING MODEL AND SPEAKER MODEL"Proc.of ICASSP 2000. Vol.3. 1575-1578 (2000)