人に優しい次世代ヒューマンインタフェースを目指すためには人間が発した言葉を認識する技術の確立が不可欠である。この分野の研究は、音声理解と機械読唇に大別されるが、両者が相互に補完し合うことが話し言葉の認識率を向上させることは明白である。音声理解においては、音の時系列変化を研究の対象としているのに対し、機械読唇においては静止画における口唇の輪郭形状から5母音の認識を行うものがほとんどである。 そこで動画像から口唇輪郭を抽出する手法の確立を目的とし、オプティカルフローと静止画中の対象の輪郭を正確に抽出する動的輪郭抽出法(スネーク)との協調処理を用いた口唇輪郭抽出システム(オプティカル・スネーク)の研究開発を行い、その有効性を示してきた。しかし、画像のキャプチャリングの際の画像圧縮によるエッジのぼやけや口唇回りの影や照り等の影響で抽出が充分にできない場合がある。 このような観点から本研究では、オプティカル・スネークのロバスト性の向上を目的として、口唇輪郭が動く範囲が限定されていることや、唇とその周りの肌との色相の違いに着目し、カラー情報を用いたオプティカル・スネークを提案している。具体的にはオプティカルフロー、スネーク双方の処理において輝度値・色相・彩度の有効性を検討し、さらにグレースケールの画像では口唇輪郭の抽出が困難であった動画像に対して、カラー情報を用いたオプティカル・スネークを適用して口唇運動の抽出を行い、その有効性を確認している。 本研究の特色は機械読唇において動画像処理を用いること、オプティカル・フローと動的輪郭抽出法という2つの異なった特色を持つアルゴリズムの協調処理を用いていること、輝度値の代わりに色相を用いることで、扱う情報量をそのままにロバスト性を向上していること、さらに、口唇の動きの知識を導入することにより処理の高速化を図っている点である。
|