研究概要 |
本年度の研究では,昨年度まで行なってきた相関値による顔の確認の応用として,読唇を行なった. 処理の原理は,相関値を用いて個々の入力画像を平面上にマッピングし,その(x,y)座標値をニューラルネットの入力として用いて判別を行なった. 昨年度の実験から,母音の認識は可能であるとの結果を得ていたが,本年度は,いくつかの子音(b,m,p)の認識と,さらに実時間(ビデオレート)の認識に成功した.実時間化にあたっては,トランスピュータ4台による並列処理を行ない,画像追跡,相関計算,平面配置処理をパイプライン化することで,達成できた.平面配置計算はその内部に反復計算を含むが,より初期値を与えることでその反復回数を大幅に削減できる.処理の高速化によって,口唇の動きを連続的に把握できるようになったため,前回の配置結果を次の初期値とすることで,さらなる高速化が可能になった.また,テンプレートを平面配置した結果として,相互の関係が明らかになるため,類似したテンプレートをはぶくことで,相関値計算も高速化できた. 認識精度については,話者や照明条件への依存性が高いものの,母音だけであれば80%程度,子音ひとつを含んだ場合には60%程度の成績を得ている. 3年間の研究によって,表情や口唇など不定型な対象の認識に対しては,テンプレートマッチングを拡張した相関値による配置方式が有力となることが示せたと考えている.
|