本研究は、聴覚障害者の講義での質問者の手話発言が他の受講者にとって認識することが困難であるといったことを改善するためのものである。システムの流れとしては、質問者を自動で発見し、カメラがそれを追い、講義室前面のモニタに手話を映し出すといったものになる。 システムの構成では、カメラは講義室前面の上部に配置することを考えている。これは受講者全体を把握する必要があることと、手話が前の人の陰にならないようにするためである。また、発言時以外はモニタの映像を切っておくが、その操作は講師のスイッチ操作によって実現する。 質問者を発見する方法として挙手を用いる。そのためには、受講者の顔領域と腕の動作を認識する必要がある。 まず、映像から顔領域を抽出する方法としてYUV表色系での肌色抽出を用いた。あらかじめ、肌色のモデルとなるヒストグラムを作成しておき、それに従って肌色と考えられる領域を抽出する。また、顔領域を正確に抽出するために顔の上部には髪があるという制限を加えた。これは肌色領域の上部に黒領域の面積が一定以上ある場合に、これを顔として認識する。また、顔はフレーム間で大きく移動しないと考えられるため、肌色抽出は前のフレームで得られた肌領域の周辺で行う。また、同様に顔はフレーム間でまったく動かないというわけではないので、顔候補の領域でフレーム間差分を行い、動きの無い領域は顔候補から外すことにした。 このようにして得られた顔領域より上に、フレーム間差分で得られた動きがあった領域、手のひら以上のサイズ、肌だろうと考えられる色相(UV値)のすべての制約を満たすものを挙手として認識する。 また、質問者の音声を検出し、講師の音声を分離し、質問者の位置を音源定位によって推定する。
|