工学的読唇を実現するためには、口形を正確に画像として取り込むことが必要である。そのための手段としては、1つは、顔の動きを追従するビジュアルサーボによって、常時、正面から口形画像を取り込み可能にすること、もう、1つは、画像の撮像方向に起因する歪み補正を行い、標準口形とのバタン・マッチングを可能にすることである。 第1、第2年度は、ロボットのハンドにCCDカメラを取り付け、顔の動きを追従するビジュアルサーボの開発を行った。実際の口形の代わりに、口形を模擬した一次元および二次元マーカーを追尾するニューラル・ネットワーク・リアルタイム追従制御系を設計し、実験を行った。実験の概要と主な実験結果は次の通りである。 ニューラル・ネットワークとして入力数6、中間層のニュロン数20、出力数5を用いている。入力としては、初期画像と目標画像の特徴点を各3点とし、出力として、位置誤差をゼロとするための関節角度駆動量5個を用いて、BP学習をおこなわせた。この方法によって、未学習の初期値に対しても、その誤差範囲が小さければ、ほぼ1回の動作で目標位置と一致させることが出来た。 第3年度は主として、歪み補正を左右上下の振れ角の3次の多項式を用いて行った。その係数は最小自乗法で定める。また、標準形とのマッチングには、ファジィ類似度法とニューラル・ネットを用いた識別法を用いて、同一人物については、高い識別率を得ることが出来た。3次の多項式による歪み補正は、管内検査写真画像の歪み補正にも用いて有効であることを確かめ、別途管内写真画像合成法として発表を行った。 なお、工学的読唇についての文献調査を行いまとめを行った。
|