研究概要 |
日本語音韻に対応した正確な口唇アニメーションを行うことを目的とし、日本語短文を発話している被験者の口唇周辺の運動を高速ビデオカメラで記録し、同時に音声を録音する実験を行った。計測条件は、撮影速度は、300コマ/秒及び240コマ/秒、画素数は200×200及び256×256、RGB各8ビット、撮影チャンネルは正面・側面の2方向、音声は44.1kHzモノラルとした。発話短文は、音素バランスを考慮して作成された、各3〜5秒程度の日本語短文とした。裸顔での撮影、口唇上に高輝度の点を着色した撮影、口唇を青色口紅で着色した撮影を行った。収集したデータについて、無音部など不要な部分のデータを除くなどの基本的データ処理を行って、日本語発話口唇運動動画像データベースとしてデータベース化した。 詳細に観察したデータから、発話音韻に対応した、典型的な口唇形状、すなわち、口形素の抽出を行い、MPEG-4のボディパラメータに準じる口唇上の点の座標データの形で記録し、その座票データを用いて、コンピュータグラフィックス(CG)による口唇モデルによる口形素モデルを作成した。又、発話するのに形状だけでなく動きが必要な音韻、例えば、破裂音/ba/などについて、高速記録の特性を生かし、詳細な観察を行い、動的な口形素抽出に役立てた。 口形素CGモデルを時間軸上に離散的に配置し、線形補間、重み付き補間、ラスター画像レベルでの補間などにより、中間を補間したキーフレームアニメーションを行った。これにより、従来,型的に行われていた少数口形素の線形補間による発話アニメーションに比較して、より実際のヒトの動きに近い発話時口唇運動アニメーションが可能となった。
|