研究概要 |
本研究課題では,機械読唇を利用した聴覚障害者のコミュニケーション支援を目的として,単音や単語だけでなく会話文をリアルタイムで認識するインタフェースの開発を目指す.本研究初年度の平成21年度は以下のことに取り組んだ. 1) 日本語25単語の発話シーンを学生10人の協力を得て撮影した.ただし,読唇をインタフェースとして利用する際,計算機性能によりカメラのフレームレートが変更する可能性がある.フレームレートが認識精度に与える影響を検討するため,撮影は一般的なカメラのフレームレートである30fpsでなく60fpsで撮影した. 2) これまでは口唇周辺が大きく写る顔下半分の発話シーンを処理対象としていた.この場合,発話時に顔が動くと口唇領域の抽出に影響を与える.この問題を避けるため,本研究課題では顔全体が写る発話シーンを対象とした.顔検出にはViolaが提案したHaar-like特徴量による顔検出など数多くの手法が提案されているが,ここでは口唇領域抽出に用いるActive Appearance Model(AAM)を顔抽出にも利用する.顔抽出後にAAMを適用し口唇領域を抽出する. 3) AAMにより五つの口唇領域を抽出し,これに基づき特徴量を定義する.特徴量として認識に有効なトラジェクトリ特徴量TFを用いるが,TFを構成する口唇領域の形状特徴量を変えて有効な特徴量の組み合わせを用いて認識実験を行なった.その結果,内側唇輪郭内領域の面積とアスペクト比,歯領域の面積を用いることにより94.6%の高い認識精度を得られることを確認した. 4) 学習用データおよび認識実験用データのフレームレートを擬似的に変更し認識実験を行なった結果,両データのフレームレートの差が小さい場合,認識率はあまり影響を受けず,認識実験用データのフレームレートを大きくする方が高い認識率が得られやすいことを確認した. 5) 研究成果は国際会議1件,国内学会2件で発表した.また国際会議および国内学会にそれぞれ1件投稿中であり,リアルタイム読唇システムに関する成果を学術論文として投稿する予定である.
|