音声を聞き取る際,発話映像の付加により,発話内容の理解を助けることが知られており,音声コミュニケーションにおいて映像も有益な情報である.本研究の目的は,発話音声の漸次的認識結果出力を利用し,音声発話と並行して処理を行なうことで,リップシンクアニメーション(音声に同期した唇の動き)の逐次出力を実現するための基盤技術の研究開発である. 今年度は,、漸次的な視覚素(音素と対応づけられた基本口形状の分類)の認識に基づくリップシンクアニメーションを実現に向けたプロトタイプシステムの出力を分析した. プロトタイプシステムでは,出力に遅延が許容される利用環境を想定し,入力音声を一定時間遅延させて出力した音声と同期するリップシンクアニメーション出力を実現する.視覚素認識結果の漸次的な出力から,先行視覚素と当該視覚素の組によって定義される視覚素対ごとに設計されたフィルタを利用して,アニメーション対象となる口形状の混合重み系列を出力するプロトタイプシステムを設計と実装を進め,リップシンクアニメーションの逐次出力が可能である.先行視覚素を考慮することで,フィルタ数や計算量は増加するが,視覚素自体はそれほど多くない.また,実際に先行視覚素を考慮した場合としない場合で出力遅延を比較した結果,その遅延量に大きな差はないことを確認した.
|