多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

Research Project

Project/Area Number	03J01700
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	情報通信工学
Research Institution	Nagoya Institute of Technology
Principal Investigator	戸田智基名古屋工業大学, 工学研究科, 特別研究員-PD
Project Period (FY)	2003 – 2004
Project Status	Completed (Fiscal Year 2004)
Budget Amount *help	¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 2004: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	音声合成 / 話者性制御 / 統計的特徴量変換 / 音声信号処理 / 動的特徴 / 系列内変動 / 最尤推定 / パラメータ生成 / コーパスサイズ / 声質変換 / 動的特徴量 / 素片選択 / 韻律変形 / 知覚的評価 / コスト関数最適化
Research Abstract	ある話者の音声を他の話者の音声へと変換する声質変換技術を用いることで、合成音声の特徴を容易に操作できる柔軟性の高い音声合成システムが実現できると見込まれる。声質変換では、少量の音声データから統計的に抽出された変換関数を用いることで任意の音声データに対するパラメータ変換が行われるが、既存手法の性能は不十分であり、得られる変換音声の品質劣化は大きい。この原因として、1)パラメータの時間変化に関する情報を使用していない、2)統計処理によりパラメータの過剰な平滑化が生じる、といった事が挙げられる。そこで,問題1)を解決するために、パラメータの静的特徴のみでなく動的特徴にも着目した変換法を提案した。さらに、問題2)を緩和するために、系列内変動という新たな特徴量を導入した変換法を提案した。従来法では統計処理として適切とは言い難いパラメータ変換処理が行われるが、提案法では尤度最大化基準に基づく変換処理が行われるため、数学的に取り扱いやすく、今後さらなる発展も十分に期待できる。実験的評価結果から、提案法は従来法と比較し、変換音声の音質、話者性を大きく改善できることを示した。また、本手法を実装したプログラムを、米国カーネギーメロン大学からフリーで公開されており世界中で広く使用されている音声合成用データベース作成ツールFestvoxに導入した。次期リリースにて本プログラムは公開される予定である。提案する統計的特徴量変換法を、調音特徴量からの音声合成、音声からの調音運動逆推定、非可聴つぶやきから通常音声への変換に対しても適用した。実験的評価により提案法の有効性を明らかにした。また、提案法を統計量ベーステキスト音声合成法における確率分布からのパラメータ生成に対しても適用した。実験的評価結果から、スペクトル・音源パラメータ生成においても提案法は有効であることを示した。

Report

(2 results)

2004 Annual Research Report
2003 Annual Research Report

Research Products
(12 results)

All 2005 2004 2003 Other

All Journal Article (8 results) Patent(Industrial Property Rights) (1 results) Publications (3 results)

[Journal Article] Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter2005
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2005) (CD-ROM)
  
  Pages: 9-12
- Related Report
  2004 Annual Research Report
[Journal Article] パラメータ出力確率を考慮したポストフィルタ設計法2005
- Author(s)
  戸田智基, 徳田恵一
- Journal Title
  
  日本音響学会春季研究発表会講演論文集 1-1-21
  
  Pages: 195-196
- NAID
  10018037458
- Related Report
  2004 Annual Research Report
[Journal Article] Acoustic-to-Articulatory Inversion Mapping with Gaussian Mixture Model2004
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of International Conference on Spoken Language Processing (ICSLP2004) (CD-ROM)
  
  Pages: 1129-1132
- Related Report
  2004 Annual Research Report
[Journal Article] Mapping from Articulatory Movements to Vocal Tract Spectrum with Gaussian Mixture Model for Articulatory Speech Synthesis2004
- Author(s)
  Tomoki Toda, Alan W Black, Keiichi Tokuda
- Journal Title
  
  Proceeding of 5th ISCA Speech Synthesis Workshop (SSW5) (CD-ROM)
  
  Pages: 31-36
- Related Report
  2004 Annual Research Report
[Journal Article] Optimizing Sub-Cost Functions for Segment Selection Based on Perceptual Evaluations in Concatenative Speech Synthesis2004
- Author(s)
  Tomoki Toda, Hisashi Kawai, Minoru Tsuzaki
- Journal Title
  
  Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004) (CD-ROM)
  
  Pages: 657-660
- Related Report
  2004 Annual Research Report
[Journal Article] 混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換2004
- Author(s)
  戸田智基, 鹿野清宏
- Journal Title
  
  電子情報通信学会技術研究報告 SP2004-107
  
  Pages: 67-72
- NAID
  110003278804
- Related Report
  2004 Annual Research Report
[Journal Article] 混合正規分布モデルを用いた調音運動に基づく音声合成2004
- Author(s)
  戸田智基, Alan W Black, 徳田恵一
- Journal Title
  
  日本音響学会秋季研究発表諦講演論文集 3-2-2
  
  Pages: 319-320
- Related Report
  2004 Annual Research Report
[Journal Article] 発話内変動を考慮した最尤スペクトル変換法2004
- Author(s)
  戸田智基, Alan W Black, 徳田恵一
- Journal Title
  
  日本音響学会秋季研究発表会講演論文集 3-2-7
  
  Pages: 329-330
- Related Report
  2004 Annual Research Report
[Patent(Industrial Property Rights)] 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置2003
- Inventor(s)
  戸田智基, 河井恒, 津崎実
- Industrial Property Rights Holder
  ATR
- Industrial Property Number
  2002-280402
- Filing Date
  2003-07-25
- Related Report
  2004 Annual Research Report
[Publications] 戸田智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)
- Related Report
  2003 Annual Research Report
[Publications] 戸田智基: "素片接続型テキスト音声合成における韻律変形の有効性"日本音響学会秋期研究発表会講演論文集. 1-8-10. 201-202 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Tomoki Toda: "Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis"Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP2004). 発表予定. (2004)
- Related Report
  2003 Annual Research Report

多様な話者性の制御を可能とする高品質なテキスト音声合成の研究

Principal Investigator

戸田 智基 名古屋工業大学, 工学研究科, 特別研究員-PD

¥2,000,000 (Direct Cost: ¥2,000,000)

Report

Research Products

[Journal Article] Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter2005

Author(s)

Journal Title

Related Report

[Journal Article] パラメータ出力確率を考慮したポストフィルタ設計法2005

Author(s)

Journal Title

NAID

Related Report

[Journal Article] Acoustic-to-Articulatory Inversion Mapping with Gaussian Mixture Model2004

Author(s)

Journal Title

Related Report

[Journal Article] Mapping from Articulatory Movements to Vocal Tract Spectrum with Gaussian Mixture Model for Articulatory Speech Synthesis2004

Author(s)

Journal Title

Related Report

[Journal Article] Optimizing Sub-Cost Functions for Segment Selection Based on Perceptual Evaluations in Concatenative Speech Synthesis2004

Author(s)

Journal Title

Related Report

[Journal Article] 混合正規分布モデルに基づく非可聴つぶやき声(NAM)から通常音声への変換2004

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 混合正規分布モデルを用いた調音運動に基づく音声合成2004

Author(s)

Journal Title

Related Report

[Journal Article] 発話内変動を考慮した最尤スペクトル変換法2004

Author(s)

Journal Title

Related Report

[Patent(Industrial Property Rights)] 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置2003

Inventor(s)

Industrial Property Rights Holder

Industrial Property Number

Filing Date

Related Report

[Publications] 戸田 智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)

Related Report

[Publications] 戸田 智基: "素片接続型テキスト音声合成における韻律変形の有効性"日本音響学会秋期研究発表会講演論文集. 1-8-10. 201-202 (2003)

Related Report

[Publications] Tomoki Toda: "Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis"Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP2004). 発表予定. (2004)

Related Report

戸田智基名古屋工業大学, 工学研究科, 特別研究員-PD

[Publications] 戸田智基: "波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化"電子情報通信学会技術研究報告. SP2003-81. 43-48 (2003)

[Publications] 戸田智基: "素片接続型テキスト音声合成における韻律変形の有効性"日本音響学会秋期研究発表会講演論文集. 1-8-10. 201-202 (2003)