研究概要 |
対面コミュニケーション状況で観測されるマルチモダリティを複数の認識モジュールで入力・解析し,タスクの特性に応じて適宜,結果の統合を行いながら,言語情報と画像情報を協調理解する方式を開発するとともに,マルチモーダル対話システムに応用して有効性を検証するために,平成21年度は,(1)コーパス整備ツールの作成と評価,(2)複数の情報源もしくは認識器を用いたデータ解析と入力モダリティ認識アルゴリズムの開発,(3)音声とジェスチャを統合したアプリケーションの試作を行った。(1)のコーパス作成ツールでは,複数のアノテータ間でタグの一致度が向上するように,それぞれの履歴と過去の自分のタグ付けの傾向を参照しながらアノテーションを行う枠組みを導入し,その有効性を検証した。(2)については,言語情報と画像情報を統合した画像検索手法を提案し,講義用教材の検索においてその有効性を確かめた。また,複数の音声認識器の辞書を階層化することで,より高精度な音声理解を実現した。さらにジェスチャ認識では,SVMによるバッチ学習とパーセプトロンによるオンライン学習を統合し,使用環境や使用者の変化にロバストな認識手法を提案・実装し,その有効性を確認した。(3)については,(2)で実装した音声認識器とジェスチャ認識器を統合し,写真管理ソフトにおける画像の選択や拡大・縮小などの操作,音楽再生ソフトにおける再生,停止,音量調整などの操作を,ジェスチャと音声で行うことのできるマルチモーダルインタフェースを試作した。
|