2003 Fiscal Year Annual Research Report
多様な話者性の制御を可能とする高品質なテキスト音声合成の研究
Project/Area Number |
03J01700
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
戸田 智基 名古屋工業大学, 工学研究科, 特別研究員(PD)
|
Keywords | 音声合成 / コーパスサイズ / 声質変換 / 動的特徴量 / 素片選択 / 韻律変形 / 知覚的評価 / コスト関数最適化 |
Research Abstract |
ある話者の音声を合成する際には、得られる音声コーパスのサイズに適した音声合成法を用いることが重要である。極めて少量の音声データしか得られない場合には、他の話者の音声を所望の話者の音声へと変換する声質変換技術が有効であるが、その品質は不十分である。品質劣化をもたらす一つの要因として、特徴量パラメータ変換時に時間方向の相関を考慮していないことが挙げられる。この問題を解決するために、HMM音声合成にて用いられている動的特徴量を用いたパラメータ生成法を、混合正規分布モデルによるパラメータ変換法へ適用した。実験的評価により、提案法は従来法と比べパラメータ変換精度を改善できることを明らかにした。なお、本手法は声質変換のみならず、調音パラメータからの音声合成や音声からの調音パラメータ推定等にも用いることができる。そこで、これらの問題に対しても本手法の有効性を示した。 一方、数百文以上の音声データが得られる状況では、素片選択を用いた波形合成法が有効である。その際に信号処理による韻律変形を施す必要性については、これまで十分な議論がなされていない。そこで、韻律変形の有効性についてコーパスサイズという観点から評価を行った。知覚実験結果から、コーパスサイズが2時間程度以下の際には韻律変形が有効であることを示した。さらに、物理尺度から知覚スコアを推定する実験式を用いることで、聴覚実験を行うことなく韻律変形の必要性を判断する枠組みを提案した。また、素片選択用コスト関数について知覚特性に基づく最適化を行うことで、合成音声のさらなる品質改善に成功した。 変換スペクトルを用いた音声合成におけるさらなる品質改善を行うため、残差波形を統計的かつ定量的に抽出するアルゴリズムを考案した。今後、実験的評価を行う予定である。
|
-
[Publications] 戸田 智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)
-
[Publications] 戸田 智基: "素片接続型テキスト音声合成における韻律変形の有効性"日本音響学会秋期研究発表会講演論文集. 1-8-10. 201-202 (2003)
-
[Publications] Tomoki Toda: "Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis"Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP2004). 発表予定. (2004)