• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

多様で肉声感の高い音声生成のための素片正規化に基づくハイブリッド音声合成の研究

Research Project

Project/Area Number 25730106
Research InstitutionTohoku University

Principal Investigator

能勢 隆  東北大学, 工学(系)研究科(研究院), 講師 (90550591)

Project Period (FY) 2013-04-01 – 2015-03-31
Keywords統計的音声合成 / 隠れマルコフモデル / パラメータ生成 / ガウス過程回帰 / 重回帰隠れセミマルコフモデル / 強調表現 / 歌声合成
Outline of Annual Research Achievements

本研究では多様で肉声感の高い音声の合成を実現するため,従来の隠れマルコフモデル(HMM)に基づく統計的音声合成の品質改善について検討を行った.具体的には主として以下の様な研究成果が得られた.(1)音声パラメータの生成において従来の尤度の制約だけでなく分散の局所的制約を用いたハイブリッドなパラメータ生成法による音声の自然性の改善(2)強調コンテキストの自動付与に基づく韻律の多様化(3)ガウス過程回帰に基づくパラメータ生成法によるスペクトル再現性の改善(4)重回帰隠れセミマルコフモデル(MRHSMM)に基づいた歌唱スタイルの直観的制御の実現.(1)では従来のHMM音声合成において問題になっていたスペクトル包絡のピークの平坦化による自然性低下を音韻や韻律に依存したコンテキストに基づく局所的な分散の制約を導入することで抑制することで,聴覚的な自然性の改善を主観評価により示した.(2)では従来困難であった音声における強調表現の自動付与を,強調ラベルを考慮せず生成された基本周波数(F0)系列と原音声のF0系列の差分を利用することで実現し,従来に比べて表現豊かな韻律が得られれることを実験により示した.(3)では従来の決定木に基づく未知パラメータの予測に替わりガウス過程回帰を用いることでより正確なスペクトルパラメータを予測することができ,主観的品質の向上を実現した.(4)では歌声合成において複数の歌唱スタイルをMRHSMMによりモデル化することで,従来単調であった歌唱スタイルをその種類に加え度合いについても制御できることを示した.

  • Research Products

    (10 results)

All 2014

All Journal Article (8 results) (of which Peer Reviewed: 5 results,  Acknowledgement Compliant: 8 results) Presentation (2 results)

  • [Journal Article] Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis2014

    • Author(s)
      Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
    • Journal Title

      Speech Communication

      Volume: 57 Pages: 144-154

    • DOI

      10.1016/j.specom.2013.09.014

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] A parameter generation algorithm using local variance for HMM-based speech synthesis2014

    • Author(s)
      Takashi Nose, Vataya Chunwijitra, Takao Kobayashi
    • Journal Title

      IEEE Journal of Selected Topics in Signal Processing

      Volume: 8 Pages: 221-228

    • DOI

      10.1109/JSTSP.2013.2283459

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Statistical parametric speech synthesis based on Gaussian process regression2014

    • Author(s)
      Tomoki Koriyama, Takashi Nose, Takao Kobayashi
    • Journal Title

      IEEE Journal of Selected Topics in Signal Processing

      Volume: 8 Pages: 173-183

    • DOI

      10.1109/JSTSP.2013.2283461

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014

    • Author(s)
      郡山知樹,能勢 隆,小林隆夫
    • Journal Title

      日本音響学会2014年春季研究発表会講演論文集

      Volume: 1 Pages: 355-356

    • Acknowledgement Compliant
  • [Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014

    • Author(s)
      郡山智樹,能勢 隆,小林隆夫
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: 113 Pages: 19-24

    • Acknowledgement Compliant
  • [Journal Article] Parametric speech synthesis based on Gaussian process regression using global variance and hyperparameter optimization2014

    • Author(s)
      Tomoki Koriyama, Takashi Nose, Takao Kobayashi
    • Journal Title

      Proceedings of 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing

      Volume: 1 Pages: 3862-3866

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] ガウス過程回帰に基づくF0パタン生成の検討2014

    • Author(s)
      郡山知樹,能勢隆,小林隆夫
    • Journal Title

      日本音響学会2014年秋季研究発表会講演論文集

      Volume: 1 Pages: 247-248

    • Acknowledgement Compliant
  • [Journal Article] Parametric speech synthesis using local and global sparse Gaussian processes2014

    • Author(s)
      Tomoki Koriyama, Takashi Nose, Takao Kobayashi
    • Journal Title

      Proceedings of 24th IEEE International Workshop on Machine Learning for Signal Processing

      Volume: 1 Pages: 1-6

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] ガウス過程回帰に基づくF0パタン生成の検討2014

    • Author(s)
      郡山知樹
    • Organizer
      日本音響学会2014年秋季研究発表会
    • Place of Presentation
      北海学園大学(北海道・札幌市)
    • Year and Date
      2014-09-02 – 2014-09-02
  • [Presentation] Singing style control for HMM-based expressive singing voice synthesis2014

    • Author(s)
      Takashi Nose
    • Organizer
      The 7th seminar of A3 foresight program
    • Place of Presentation
      Seoul National University(Korea)
    • Year and Date
      2014-05-26 – 2014-05-26

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi