研究課題
ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。
すべて 2005 2004 2003
すべて 雑誌論文 (8件) 産業財産権 (1件)
Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2005) (CD-ROM)
ページ: 9-12
日本音響学会春季研究発表会講演論文集 1-1-21
ページ: 195-196
Proceeding of International Conference on Spoken Language Processing (ICSLP2004) (CD-ROM)
ページ: 1129-1132
Proceeding of 5th ISCA Speech Synthesis Workshop (SSW5) (CD-ROM)
ページ: 31-36
Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004) (CD-ROM)
ページ: 657-660
電子情報通信学会技術研究報告 SP2004-107
ページ: 67-72
日本音響学会秋季研究発表諦講演論文集 3-2-2
ページ: 319-320
日本音響学会秋季研究発表会講演論文集 3-2-7
ページ: 329-330