2002 Fiscal Year Annual Research Report
日本語音声発話における動的口形素の作成に関する研究
Project/Area Number |
14580431
|
Research Institution | Kanazawa Institute of Technology |
Principal Investigator |
平山 亮 金沢工業大学, 工学部, 助教授 (70329374)
|
Keywords | 日本語 / viseme / 口形素 / アニメーション / 発話運動 / マルチメディアデータベース / 口唇 / MPEG-4 |
Research Abstract |
日本語音韻に対応した正確な口唇アニメーションを行うことを目的とし、その音韻に対応した口唇の動きをデータベース化するため、日本語短文を発話している被験者の口唇周辺の運動を高速ビデオカメラで記録し、同時に音声を録音する実験を行った。初年度にあたる本年度は、計測機材の入手と設置・調整、発話実験時に読み上げる音節、単語、文の選定、様々な計測条件での予備実験及びそのデータ処理を主に行った。東京アクセント及び北陸アクセントの男性発話者2名程度により、音素バランスを考慮に入れた平均約27音節、時間にして5秒前後の50短文を発話する計測実験を、各種の計測条件を変えながら繰り返し行った。動画記録上重要な条件は、撮像範囲及び1秒間あたりのコマ数であるが、撮像範囲については機器の解像度の制約もあり,頭部全体ではなく,鼻の先あたりから顎の下部までの口唇周辺のみを狙って撮影することとした。コマ数については300コマ/秒と120コマ/秒の2通りの条件を主に使っていくのがよいと判断した。高速ビデオカメラを2台使用し、同期機能の設定・設置を行って,正面及び右側面の映像を同時に撮影した。現時点では、撮影画像の位置や明るさの補正・正規化、音韻ラベル付けなど付加的データ処理などの作業が未完了であって、まだデータベースとして公開できる段階には至らないが、最終的には公開を想定している。Viseme(口形素)及びその動的変化のモデリングに関しては、マルチメディア通信の重要性に鑑み、MPEG-4 face animation parametersと親和性を持たせる形での形状抽出及び運動抽出を行っている。
|