研究概要 |
ヒューマンインターフェースに適合した擬人化エージェントの実現に必要な,自然な顔表情と顔に見合った人間らしい話し言葉を音声合成を行うためにつぎの研究を行った. 1.自然な顔表情を実現するための三次元顔モデルを作成し,画像で与えられた顔を自由に変形し,表情を作成するシステムを開発した.入力画像は二次元であるので,顔の奥行き情報を取得する方法として,側面画像の利用する方法,および,正面画像から奥行きを想定する顔の三次元モデルを用いる方法を提案した.次年度にそれぞれの効果を実験で検証する予定である. 2.言語情報と非言語情報によって基本周波数を制御する手法の開発を行った.さらに,自然な発話を合成するために重要な基本周波数パターンについて,話者の特徴を調べるためつぎのことを行った. (1)文法的に連結強度が分かっているフレーズ間について,パラメータ編集音声合成手法を用いた音声合成システムを利用し,フレーズ間連結強度と基本周波数の関係を調べた. (2)基本周波数の文章における変化パターンについて,離散フレーズの考え方を用いて計測する方法を提案し,実験により有効性を確かめた. 3.音声合成システムと顔動画像生成システムとを旨く同期するための基礎的理論について研究を行い,時間を考慮したスケジューリング手法,スケジュールの動的な修正手法,および,効率的な計画を行うために戦略知識の自動学習法について研究を行い,成果を得た.
|