2014 Fiscal Year Annual Research Report

多様で肉声感の高い音声生成のための素片正規化に基づくハイブリッド音声合成の研究

Research Project

Project/Area Number	25730106
Research Institution	Tohoku University
Principal Investigator	能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY)	2013-04-01 – 2015-03-31
Keywords	統計的音声合成 / 隠れマルコフモデル / パラメータ生成 / ガウス過程回帰 / 重回帰隠れセミマルコフモデル / 強調表現 / 歌声合成
Outline of Annual Research Achievements	本研究では多様で肉声感の高い音声の合成を実現するため，従来の隠れマルコフモデル（ＨＭＭ）に基づく統計的音声合成の品質改善について検討を行った．具体的には主として以下の様な研究成果が得られた．（１）音声パラメータの生成において従来の尤度の制約だけでなく分散の局所的制約を用いたハイブリッドなパラメータ生成法による音声の自然性の改善（２）強調コンテキストの自動付与に基づく韻律の多様化（３）ガウス過程回帰に基づくパラメータ生成法によるスペクトル再現性の改善（４）重回帰隠れセミマルコフモデル（ＭＲＨＳＭＭ）に基づいた歌唱スタイルの直観的制御の実現．（１）では従来のＨＭＭ音声合成において問題になっていたスペクトル包絡のピークの平坦化による自然性低下を音韻や韻律に依存したコンテキストに基づく局所的な分散の制約を導入することで抑制することで，聴覚的な自然性の改善を主観評価により示した．（２）では従来困難であった音声における強調表現の自動付与を，強調ラベルを考慮せず生成された基本周波数（Ｆ０）系列と原音声のＦ０系列の差分を利用することで実現し，従来に比べて表現豊かな韻律が得られれることを実験により示した．（３）では従来の決定木に基づく未知パラメータの予測に替わりガウス過程回帰を用いることでより正確なスペクトルパラメータを予測することができ，主観的品質の向上を実現した．（４）では歌声合成において複数の歌唱スタイルをＭＲＨＳＭＭによりモデル化することで，従来単調であった歌唱スタイルをその種類に加え度合いについても制御できることを示した．

Research Products
(10 results)

All 2014

All Journal Article (8 results) (of which Peer Reviewed: 5 results, Acknowledgement Compliant: 8 results) Presentation (2 results)

[Journal Article] Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis2014
- Author(s)
  Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
- Journal Title
  
  Speech Communication
  
  Volume: 57 Pages: 144-154
- DOI
  10.1016/j.specom.2013.09.014
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] A parameter generation algorithm using local variance for HMM-based speech synthesis2014
- Author(s)
  Takashi Nose, Vataya Chunwijitra, Takao Kobayashi
- Journal Title
  
  IEEE Journal of Selected Topics in Signal Processing
  
  Volume: 8 Pages: 221-228
- DOI
  10.1109/JSTSP.2013.2283459
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Statistical parametric speech synthesis based on Gaussian process regression2014
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  IEEE Journal of Selected Topics in Signal Processing
  
  Volume: 8 Pages: 173-183
- DOI
  10.1109/JSTSP.2013.2283461
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014
- Author(s)
  郡山知樹,能勢隆,小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: 1 Pages: 355-356
- Acknowledgement Compliant
[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014
- Author(s)
  郡山智樹,能勢隆,小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: 113 Pages: 19-24
- Acknowledgement Compliant
[Journal Article] Parametric speech synthesis based on Gaussian process regression using global variance and hyperparameter optimization2014
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing
  
  Volume: 1 Pages: 3862-3866
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] ガウス過程回帰に基づくF0パタン生成の検討2014
- Author(s)
  郡山知樹,能勢隆,小林隆夫
- Journal Title
  
  日本音響学会2014年秋季研究発表会講演論文集
  
  Volume: 1 Pages: 247-248
- Acknowledgement Compliant
[Journal Article] Parametric speech synthesis using local and global sparse Gaussian processes2014
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of 24th IEEE International Workshop on Machine Learning for Signal Processing
  
  Volume: 1 Pages: 1-6
- Peer Reviewed / Acknowledgement Compliant
[Presentation] ガウス過程回帰に基づくF0パタン生成の検討2014
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2014年秋季研究発表会
- Place of Presentation
  北海学園大学（北海道・札幌市）
- Year and Date
  2014-09-02 – 2014-09-02
[Presentation] Singing style control for HMM-based expressive singing voice synthesis2014
- Author(s)
  Takashi Nose
- Organizer
  The 7th seminar of A3 foresight program
- Place of Presentation
  Seoul National University（Korea）
- Year and Date
  2014-05-26 – 2014-05-26

2014 Fiscal Year Annual Research Report

多様で肉声感の高い音声生成のための素片正規化に基づくハイブリッド音声合成の研究

Principal Investigator

能勢 隆 東北大学, 工学(系)研究科(研究院), 講師 (90550591)

Research Products

[Journal Article] Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis2014

Author(s)

Journal Title

DOI

[Journal Article] A parameter generation algorithm using local variance for HMM-based speech synthesis2014

Author(s)

Journal Title

DOI

[Journal Article] Statistical parametric speech synthesis based on Gaussian process regression2014

Author(s)

Journal Title

DOI

[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014

Author(s)

Journal Title

[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014

Author(s)

Journal Title

[Journal Article] Parametric speech synthesis based on Gaussian process regression using global variance and hyperparameter optimization2014

Author(s)

Journal Title

[Journal Article] ガウス過程回帰に基づくF0パタン生成の検討2014

Author(s)

Journal Title

[Journal Article] Parametric speech synthesis using local and global sparse Gaussian processes2014

Author(s)

Journal Title

[Presentation] ガウス過程回帰に基づくF0パタン生成の検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Singing style control for HMM-based expressive singing voice synthesis2014

Author(s)

Organizer

Place of Presentation

Year and Date

能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)