研究概要 |
本研究では,任意の話者性・感情表現・発話様式によるテキスト音声合成システムの実現を目標に,平均声と話者適応/スタイル適応技術を組み合わせた新たな音声合成方式の検討を行っている.昨年度は隠れセミマルコフモデルという通常の隠れマルコフモデルを拡張した統計モデルの枠組みを利用することで,スペクトルと基本周波数と音韻継続長という音声の3つの特徴量を同時に変換することが可能な話者適応アルゴリズムを開発し,その有効性を示した.しかし,上記の実験に用いた話者適応アルゴリズムは,最尤線形回帰という隠れマルコフモデルの出力分布の平均ベクトルをアフィン変換するだけの非常に単純な手法であり,より緻密で適切なモデル変換を頑健に行うためには話者適応アルゴリズムの改善が必要である. そこで本年度は,話者適応アルゴリズムの変換精度を向上させることを目的に,様々な話者適応アルゴリズムを隠れセミマルコフモデルの枠組みにおいて再定式化し,音声合成システムへ導入することで昨年度提案した手法との比較検討を行った.新たに検討したモデル適応アルゴリズムとしては,隠れセミマルコフモデルの出力分布の平均ベクトルだけでなく共分散行列も変換を行う制約付き最尤線形回帰や,変換パラメータの推定に最尤推定ではなく事後確率最大化推定を導入することでより少量のデータでも頑健に変換パラメータを推定できるように拡張した事後確率最大化線形回帰などを導入し,比較検討を行った。またこれらの制約付き線形回帰と事後確率最大化線形回帰を組み合わせた新たな話者適応アルゴリズムの開発も行い,話者適応のより一段の精度向上が図れたことを実験結果から確認した.さらにこれらの線形回帰によるモデル変換後に,データサンプルのある分布に対し事後確率最大化推定を行う手法も導入し,話者適応により変換された分布が利用可能なデータ量の増加に従い最尤推定の結果に漸近的に近づいていくことも確認した.この手法により、統一の枠組みで様々なデータ量に適したモデルを作成できる. また,これらの話者適応アルゴリズムを話者の変換ではなく,音声のスタイルの変換に利用するスタイル適応にも応用し,その有効性を検討した.スタイルを伴った音声の適応では基本周波数や音韻継続長が重要な役割を担っていることからこれらのモデル適応アルゴリズムの大きな効果が確認された.
|