研究概要 |
本研究では「平均声からの音声合成」という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質や発話様式など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションが実現可能な音声合成システムを開発することを目的とし,研究の最終年度として,平均声モデルから目標とする任意の話者モデルへの適応手法の確立,平静スタイルモデルから任意の感情表現・発話様式(スタイル)モデルへの適応手法の確立,指定した任意スタイルの音声を生成するスタイル制御手法の確立,そして各話者の個性を表現可能な音声合成システム実現の検討を行った。 まず,平均声モデルから目標とする任意の話者モデルへの適応手法では,従来の最尤線形回帰(MLLR)に基づくモデル適応に加え,事後確率最大線形回帰(MAPLR),構造的MAPLR(SMAPLR),制約付MLLR(CMLLR)等のモデル適応手法に基づいて,隠れセミマルコフモデル(HSMM)を用いたモデル化のための適応アルゴリズムを導出し,合成音声の客観・主観評価を通して各手法の適応性能の比較検討を行った。そしてこの結果を基に,新たに制約付構造的MAPLR(CSMAPLR)適応アルゴリズムを提案し,その有効性を検討した。次に,任意のスタイルモデルへの適応手法では,音韻継続長を考慮したHSMMとスープラセグメンタル特徴に基づいたスタイル適応手法を導出し,スタイル適応合成音声の客観・主観評価を通して提案手法の有効性を示した。さらに,指定した任意のスタイルの音声を生成するためのスタイル制御手法として,重回帰HSMMに基づいた手法を提案し,その有効性を示した。そして,任意の声質・スタイルを直観的に制御可能な音声合成プロトタイプシステムを作成し,気の利いたインタラクションシステム実現の検討を行った。
|