研究概要 |
ヒューマンインターフェースに適合した擬人化エージェントの実現に必要な基盤技術として,自然な顔表情と顔に見合った人間らしい話し言葉の音声合成を行うためにつぎの研究を行った. 1.自然な顔表情を実現するための三次元顔モデルを作成し,画像で与えられた顔を自由に変形し,表情を作成するシステムを開発した.表情を実現するためにFACS (Facial Action Coding System)を利用し,それぞれのAU (Action Unit)の動作範囲について,表示実験により決定した.また,合成音に合わせた自然なリップシンクロナイゼーションを効率よく実現するために,日本語発話における口の形を分類し,9種類の口の形状で十分であることを確かめた. 2.言語情報と非言語情報によって基本周波数を制御する手法の開発を行うと共に,発話の基本周波数パターンを調べるためつぎの2種類の方法について検討を行った. (1)本研究では,基本周波数制御に関して入力パラメータが1つのモデルを提案している.このため,発話の基本周波数を逆変換することが可能であるため,各人の基本周波数における個性的な発話を実現できることが判明した.また,従来のABS(Analysis by Synthesis)による基本周波数推定法よりも効率よく制御パラメータ値が得られることも分かった. (2)基本周波数の文章における変化パターンについて,離散フレーズの考え方を用いて計測する方法を提案し,実験により有効性を確かめた.方言や目的に特化した話し方それぞれに対して,基本周波数の特徴が得られることが分かった. 3.音声合成システムと顔動画像生成システムとを旨く同期するための基礎的理論について研究を行い,時間を考慮したスケジューリング手法,スケジュールの動的な修正手法,および,効率的な計画を行うために戦略知識の自動学習法について研究を行い,成果を得た.
|