研究概要 |
背景や衣服の色やテクスチャに特別の制限をつけない場合に,手話をテレビカメラで観測して得られる画像系列からどれだけ認識ができるかを調べた.画像系列の各画像から,顔の位置,両腕の位置と方向,両手の位置と形状などの特徴を抽出した.手と顔が重なる場合には,領域で重なっている間の手の形を重なる前後の形のいずれかで近似し,その位置は推定した顔領域以外の領域内で最適な位置とする方法を研究した. 次に,この特徴の時系列から隠れマルコフモデル(HMM)を作成するために,単語の時系列を状態に分割する方法を研究した.分割後の状態は静止状態か,ほぼ同じ方向への移動の状態としている.まず手の動きの速度変化によって静止区間と運動区間に分割し,低速の運動区間では移動の方向の変化が大きければ,さらに分割をする.静止区間が小さい場合は,その両側の運動区間をその時点で分割をし,静止区間が長ければその区間を状態とする.いずれとも区別が困難な場合は2通りの状態分割を行ない,それぞれを同じ単語としてHMMを作る.また,小さな変動はノイズとして無視する機構を加えた.両手を用いる手話の場合は,片手だけで状態分割を行なった後で,両手の分割の区切りの位置によって,全体の状態分割を行なう.このようにして人の直観に合致するように分割を行なう方法を得た. 以上の方法で実画像データに対してHMMを作成し,認識実験を行なった.データ数は50程度であるが,認識率は90%以上であった.両手の手話の方が情報の量が多いので正解率がやや高かった.本手法では状態分割は,手の動きだけであるが,手の形の変化などの特徴も考慮する方がいい場合があることがわかった.また,手話のサンプルが充分ためにHMMの精度が低いので,サンプルを増やすか,それ以外の対策をとる必要であることがわかった.
|