2004 Fiscal Year Annual Research Report

多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

Research Project

Project/Area Number	03J01700
Research Institution	Nagoya Institute of Technology
Principal Investigator	戸田智基名古屋工業大学, 工学研究科, 特別研究員-PD
Keywords	音声合成 / 話者性制御 / 統計的特徴量変換 / 音声信号処理 / 動的特徴 / 系列内変動 / 最尤推定 / パラメータ生成
Research Abstract	ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。

Research Products
(9 results)

All 2005 2004 2003

All Journal Article (8 results) Patent(Industrial Property Rights) (1 results)

[Journal Article] Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter2005
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2005) (CD-ROM)
  
  Pages: 9-12
[Journal Article] パラメータ出力確率を考慮したポストフィルタ設計法2005
- Author(s)
  戸田智基, 徳田恵一
- Journal Title
  
  日本音響学会春季研究発表会講演論文集 1-1-21
  
  Pages: 195-196
[Journal Article] Acoustic-to-Articulatory Inversion Mapping with Gaussian Mixture Model2004
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of International Conference on Spoken Language Processing (ICSLP2004) (CD-ROM)
  
  Pages: 1129-1132
[Journal Article] Mapping from Articulatory Movements to Vocal Tract Spectrum with Gaussian Mixture Model for Articulatory Speech Synthesis2004
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of 5th ISCA Speech Synthesis Workshop (SSW5) (CD-ROM)
  
  Pages: 31-36
[Journal Article] Optimizing Sub-Cost Functions for Segment Selection Based on Perceptual Evaluations in Concatenative Speech Synthesis2004
- Author(s)
  Tomoki Toda, Hisashi Kawai, Minoru Tsuzaki
- Journal Title
  
  Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004) (CD-ROM)
  
  Pages: 657-660
[Journal Article] 混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換2004
- Author(s)
  戸田智基, 鹿野清宏
- Journal Title
  
  電子情報通信学会技術研究報告 SP2004-107
  
  Pages: 67-72
[Journal Article] 混合正規分布モデルを用いた調音運動に基づく音声合成2004
- Author(s)
  戸田智基, Alan W Black, 徳田恵一
- Journal Title
  
  日本音響学会秋季研究発表諦講演論文集 3-2-2
  
  Pages: 319-320
[Journal Article] 発話内変動を考慮した最尤スペクトル変換法2004
- Author(s)
  戸田智基, Alan W Black, 徳田恵一
- Journal Title
  
  日本音響学会秋季研究発表会講演論文集 3-2-7
  
  Pages: 329-330
[Patent(Industrial Property Rights)] 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置2003
- Inventor(s)
  戸田智基, 河井恒, 津崎実
- Industrial Property Rights Holder
  ATR
- Industrial Property Number
  特願2002-280402
- Filing Date
  2003-07-25

2004 Fiscal Year Annual Research Report

多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

Principal Investigator

戸田 智基 名古屋工業大学, 工学研究科, 特別研究員-PD

Research Products

[Journal Article] Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter2005

Author(s)

Journal Title

[Journal Article] パラメータ出力確率を考慮したポストフィルタ設計法2005

Author(s)

Journal Title

[Journal Article] Acoustic-to-Articulatory Inversion Mapping with Gaussian Mixture Model2004

Author(s)

Journal Title

[Journal Article] Mapping from Articulatory Movements to Vocal Tract Spectrum with Gaussian Mixture Model for Articulatory Speech Synthesis2004

Author(s)

Journal Title

[Journal Article] Optimizing Sub-Cost Functions for Segment Selection Based on Perceptual Evaluations in Concatenative Speech Synthesis2004

Author(s)

Journal Title

[Journal Article] 混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換2004

Author(s)

Journal Title

[Journal Article] 混合正規分布モデルを用いた調音運動に基づく音声合成2004

Author(s)

Journal Title

[Journal Article] 発話内変動を考慮した最尤スペクトル変換法2004

Author(s)

Journal Title

[Patent(Industrial Property Rights)] 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置2003

Inventor(s)

Industrial Property Rights Holder

Industrial Property Number

Filing Date

戸田智基名古屋工業大学, 工学研究科, 特別研究員-PD