音声合成技術は,人工的に音声を合成する技術である.合成音声の品質を改善するために,本研究では,敵対的学習を用いた統計的音声合成法を提案した.音質劣化の主要因は,音声パラメータの過剰な平滑化により生じたものである.提案法の学習基準は,通常の基準と敵対基準の重み付き和で得られる.敵対的学習は,自然・合成音声の分布間距離を最小化するため,過剰平滑化を効率的に緩和できる.実験的評価から,(1) 提案法はハイパーパラメータに対して頑健に働くこと,(2) Wasserstein 距離最小化に基づく提案法が,もっとも音質改善効果に有効であること,(3) ボコーダフリー音声合成に展開できることを示す.
|