研究概要 |
近年のコンピュータの普及により,人間と同様の手段でコミュニケーションのできる視覚・聴覚情報を用いたインターフェイスの開発が期待されている.また,音声認識や画像認識は,その重要な要素技術であり,盛んに研究が行われている.しかし,音声認識では,隠れマルコフモデル(HMM)に基づく手法が確立されつつあるのに対し,画像認識では,認識対象が多さとデータの複雑さから様々な手法が乱立している状態である.本研究では,顔画像認識,文字認識,ジェスチャ・手話認識,リップリーディングなどの様々な画像に適用可能な汎用的な統計モデルを考え,音声認識におけるHMMのような画像認識のためのスタンダードな統計モデルの構築を目指し研究を行なっている.これまでに提案してきた分離型格子HMMは,位置や大きさの変動を表現可能なモデルであったが,本年度は,これを回転などのより複雑な変形を許すモデルに拡張し,その学習アルゴリズムを導出した.また,学習アルゴリズムに確定的アニーリングEMアルゴリズムを適用し,モデルパラメータの初期値依存性の問題を緩和することにより,認識性能の改善を図った.さらに,分離型格子HMMにおける状態に対して継続長モデルを組み込むことにより,より正確に画像変動を表現可能なモデルに拡張した,このモデルに対し,Generalized Forward-Backwardアルゴリズムに基づく学習アルゴリズムを導出し,分離型格子HMMと継続長モデルのパラメータを同時に最適化することが可能となった.以上の提案モデルに対して顔画像認識実験を行い,変動を含む顔画像に対して頑健な認識が可能になることを示した.
|