研究概要 |
人間とコンピュータのインタラクション理解において,観測される複数の入力媒体を統合的に解釈する枠組み(マルチモーダル解釈)についての研究を行い,複数認識器の併用手法やマルチモダリティとして捉えるという人間の認識方式に対する工学的実現手段が有効か否かを検証した. 具体的には,以下のような点について研究を行った. 1.マルチモーダル対話理解 複数人における談話に対して,談話内の発話に含まれる言語情報と,音声情報から得られる非言語情報を統合し,場の状態を理解する手法を提案し,評価した.言語情報としては単語の表層や語彙の結束性を利用し,非言語情報としては声の高さや発話されるタイミングなどを用いた.また,笑い声のような特徴的な現象にも着目し,その有効性を確認した. また,ハンドジェスチャの理解手法を提案し,そのハンドジェスチャと昨年度研究をした音声理解の手法を統合したマルチモーダルインタフェースを実現し,有効性を評価した.ハンドジェスチャ認識では,事前に用意された不特定多数の学習データに基づくバッチ型の認識器とシステム利用時に獲得される該当利用者の画像を利用した逐次型の認識器を組み合わせ,頑健で利用者ごとの癖などにも対応できる柔軟な手法を実現した. 2.文脈を用いた人物識別 複数の情報源として,人物のもつ文脈的属性も考慮した人物識別の手法を提案した.具体的には従来からある顔情報に基づく人物識別手法に衣服情報や時間情報を統合し,機械学習を適用することで,特に悪条件(顔に隠れが生じる場合など)で,提案手法が有効に機能することを確認した. さらに,正面顔からの人物識別だけではなく,頭上方向からの画像を用いた人物識別を提案,評価した.人物識別では,通常の画像以外にも深度画像などを利用することで精度向上を図った.
|