ある話者の音声を合成する際には、得られる音声コーパスのサイズに適した音声合成法を用いることが重要である。極めて少量の音声データしか得られない場合には、他の話者の音声を所望の話者の音声へと変換する声質変換技術が有効であるが、その品質は不十分である。品質劣化をもたらす一つの要因として、特徴量パラメータ変換時に時間方向の相関を考慮していないことが挙げられる。この問題を解決するために、HMM音声合成にて用いられている動的特徴量を用いたパラメータ生成法を、混合正規分布モデルによるパラメータ変換法へ適用した。実験的評価により、提案法は従来法と比べパラメータ変換精度を改善できることを明らかにした。なお、本手法は声質変換のみならず、調音パラメータからの音声合成や音声からの調音パラメータ推定等にも用いることができる。そこで、これらの問題に対しても本手法の有効性を示した。 一方、数百文以上の音声データが得られる状況では、素片選択を用いた波形合成法が有効である。その際に信号処理による韻律変形を施す必要性については、これまで十分な議論がなされていない。そこで、韻律変形の有効性についてコーパスサイズという観点から評価を行った。知覚実験結果から、コーパスサイズが2時間程度以下の際には韻律変形が有効であることを示した。さらに、物理尺度から知覚スコアを推定する実験式を用いることで、聴覚実験を行うことなく韻律変形の必要性を判断する枠組みを提案した。また、素片選択用コスト関数について知覚特性に基づく最適化を行うことで、合成音声のさらなる品質改善に成功した。 変換スペクトルを用いた音声合成におけるさらなる品質改善を行うため、残差波形を統計的かつ定量的に抽出するアルゴリズムを考案した。今後、実験的評価を行う予定である。
|