研究概要 |
本研究では「平均声からの音声合成」という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質や発話様式など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションが実現可能な音声合成システムを開発することを目的とし,研究の初年度として,平均声モデルから目標とする任意の話者モデルへの適応手法の確立を重点において以下の検討を行った。 1.平均声モデルから任意の話者モデルへの適応手法として,構造的最大事後確率線形回帰(SMAPLR)に基づくモデル適応手法を提案し,その有効性を示した。また,平均声モデルのモデル化手法の基本として,対数正規分布に基づく継続時間長のモデル化と多空間確率分布に基づくポーズのモデル化と生成手法について基礎的な検討を行った。 2.多様な感情や発話様式を含む音声合成に向けて,「丁寧/ぞんざい」,「楽しげ/悲嘆」,「安心/不安」,「速く/ゆっくり」,「親しげ/嫌悪」というスタイルの音声を収録した。収録音声は,次年度以降にラベル付けを行いデータベース化する予定である。 3.多様な感情・発話様式を含む音声のモデル化手法として,HMM音声合成におけるスタイル依存モデルとスタイル混合モデルの二つのモデル化手法を提案するとともに,多様なスタイル音声の生成手法としてスタイル補間手法とスタイル適応手法を提案した。そして「丁寧」,「ぞんざい」,「楽しげ」,「悲嘆」の各スタイルについて,スタイルのモデル化と多様なスタイルでの音声合成実験・評価を行い,提案手法の有効性を示した。
|