2004 年度研究成果報告書概要

日本語音声発話における動的口形素の作成に関する研究

研究課題

研究課題/領域番号	14580431
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	金沢工業大学
研究代表者	平山亮金沢工業大学, 情報フロンティア学部, 助教授 (70329374)
研究期間 (年度)	2002 – 2004
キーワード	日本語 / viseme / 口形素 / アニメーション / 発話運動 / マルチメディアデータベース / 口唇 / MPEG-4
研究概要	日本語音韻に対応した正確な口唇アニメーションを行うことを目的とし、日本語短文を発話している被験者の口唇周辺の運動を高速ビデオカメラで記録し、同時に音声を録音する実験を行った。計測条件は、撮影速度は、300コマ/秒及び240コマ/秒、画素数は200×200及び256×256、RGB各8ビット、撮影チャンネルは正面・側面の2方向、音声は44.1kHzモノラルとした。発話短文は、音素バランスを考慮して作成された、各3〜5秒程度の日本語短文とした。裸顔での撮影、口唇上に高輝度の点を着色した撮影、口唇を青色口紅で着色した撮影を行った。収集したデータについて、無音部など不要な部分のデータを除くなどの基本的データ処理を行って、日本語発話口唇運動動画像データベースとしてデータベース化した。詳細に観察したデータから、発話音韻に対応した、典型的な口唇形状、すなわち、口形素の抽出を行い、MPEG-4のボディパラメータに準じる口唇上の点の座標データの形で記録し、その座票データを用いて、コンピュータグラフィックス(CG)による口唇モデルによる口形素モデルを作成した。又、発話するのに形状だけでなく動きが必要な音韻、例えば、破裂音/ba/などについて、高速記録の特性を生かし、詳細な観察を行い、動的な口形素抽出に役立てた。口形素CGモデルを時間軸上に離散的に配置し、線形補間、重み付き補間、ラスター画像レベルでの補間などにより、中間を補間したキーフレームアニメーションを行った。これにより、従来,型的に行われていた少数口形素の線形補間による発話アニメーションに比較して、より実際のヒトの動きに近い発話時口唇運動アニメーションが可能となった。

研究成果
(8件)

すべて 2004 2003

すべて雑誌論文 (8件)

[雑誌論文] 日本語音声発話口形素のCGモデル2004
- 著者名/発表者名
  平山亮
- 雑誌名
  
  日本音響学会2004年秋季研究発表会講演論文集
  
  ページ: 389-390
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] A High-speed Video Database of Lip Shapes during Speech2004
- 著者名/発表者名
  Makoto J.Hirayama
- 雑誌名
  
  KIT International Symposium on Brain and Language 2004
  
  ページ: 52
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] A computer graphics model of Japanese visemes2004
- 雑誌名
  
  2004 Autumn Meeting of Acoustical Society of Japan
  
  ページ: 389-390
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] A high-speed video database of lip shapes during speech2004
- 雑誌名
  
  KIT International Symposium on Brain and Language
  
  ページ: 52
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Making of a Japanese Viseme Video Database by Multiple High-speed Video Observations2003
- 著者名/発表者名
  Makoto J.Hirayama
- 雑誌名
  
  15th International Congress of Phonetic Sciences
  
  ページ: 3157-3160
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 音声発話時の口唇周辺高速動画データベース2003
- 著者名/発表者名
  平山亮
- 雑誌名
  
  情報科学フォーラム(FIT)2003
  
  ページ: 257-258
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Making of a Japanese viseme video database by multiple high-speed video observations2003
- 著者名/発表者名
  Makoto J.Hirayama
- 雑誌名
  
  15th International Congress of Phonetic Sciences
  
  ページ: 3157-3160
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] A high-speed video database around lips during Japanese speech2003
- 雑誌名
  
  Forum on Information Technology
  
  ページ: 257-258
- 説明
  「研究成果報告書概要(欧文)」より

2004 年度 研究成果報告書概要

日本語音声発話における動的口形素の作成に関する研究

研究代表者

平山 亮 金沢工業大学, 情報フロンティア学部, 助教授 (70329374)

研究成果

[雑誌論文] 日本語音声発話口形素のCGモデル2004

著者名/発表者名

雑誌名

説明

[雑誌論文] A High-speed Video Database of Lip Shapes during Speech2004

著者名/発表者名

雑誌名

説明

[雑誌論文] A computer graphics model of Japanese visemes2004

雑誌名

説明

[雑誌論文] A high-speed video database of lip shapes during speech2004

雑誌名

説明

[雑誌論文] Making of a Japanese Viseme Video Database by Multiple High-speed Video Observations2003

著者名/発表者名

雑誌名

説明

[雑誌論文] 音声発話時の口唇周辺高速動画データベース2003

著者名/発表者名

雑誌名

説明

[雑誌論文] Making of a Japanese viseme video database by multiple high-speed video observations2003

著者名/発表者名

雑誌名

説明

[雑誌論文] A high-speed video database around lips during Japanese speech2003

雑誌名

説明

2004 年度研究成果報告書概要

平山亮金沢工業大学, 情報フロンティア学部, 助教授 (70329374)