研究概要 |
近年のコンピュータの普及により,人間と同様の手段でコミュニケーションのできる視覚・聴覚情報を用いたインターフェイスの開発が期待されている.また,音声認識や画像認識は,その重要な要素技術であり,盛んに研究が行われている.しかし,音声認識では,隠れマルコフモデル(HMM)に基づく手法が確立されつつあるのに対し,画像認識では,認識対象が多さとデータの複雑さから様々な手法が乱立している状態である.本研究では,顔画像認識,文字認識,ジェスチャ・手話認識,リップリーディングなどの様々な画像に適用可能な汎用的な統計モデルを考え,音声認識におけるHMMのような画像認識のためのスタンダードな統計モデルの構築を目指し研究を行なっている.まず,これまでの研究において提案した分離型格子HMMについて,大規模な顔画像の認識実験を行ない,特徴量や適切な状態数の設定など,様々な学習条件を最適化を行なった.また,これまでの分離型格子HMMは,位置や大きさの変動を表現可能なモデルであったが,これを回転などのより複雑な変形を許すモデルに拡張した.さらに,特徴抽出を含むモデルとして,確率的主成分分析や因子分析などのモデル構造を分離型格子HMMに組み込んだモデル構造を構築し,その学習アルゴリズムを導出した.これらの拡張により顔画像の認識性能が向上することを確認した.
|