• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

Research Project

Project/Area Number 16K16096
Research InstitutionNational Institute of Informatics

Principal Investigator

高木 信二  国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)

Project Period (FY) 2016-04-01 – 2019-03-31
Keywords音声合成 / DNN
Outline of Annual Research Achievements

本研究では,従来のテキスト音声合成器に含まれるヒューリスティックに用いられていた処理や仮定を取り除き,最終的にDeep Neural Network (DNN) を用いた音声波形のダイレクトモデリング手法に基づく音声合成器の実現を目的とする.研究計画は,課題1:ヒューリスティックなスペクトル包絡推定処理を取り除き,統計アプローチに基づく高精度なスペクトルのモデル化,課題2:スペクトルにおける位相情報のモデル化,課題3:DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる.当該年度は課題(1)を中心に取り組んだ.
課題(1)については,音声合成器のためのより高精度なスペクトル包絡モデル化を検討した.ヒューリスティックな処理を除いた,単純な窓かけとフーリエ変換を用いて得られたスペクトルを用い,高精度なスペクトルのモデル化を実現した.実現された高精度なスペクトルモデルを用いることで,ボコーダを用いない音声合成器構築の検討も行った.主観評価実験の結果から,ボコーダを用いたテキスト音声合成器と比較し,提案手法による合成音声の品質の向上を示した.また,課題(2)についても位相情報を含めたスペクトルのモデル化についても研究を進めており,位相情報を含めたスペクトルからの特徴量抽出を検討した.また,位相情報を含めたスペクトルから抽出された特徴量を用いたテキスト音声合成構築の理論整備も行った.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当該年度は課題(1)の高精度なスペクトルのモデル化,及び,テキスト音声合成器の構築を目的としていたが,課題(1)を達成し,課題(2)の初期検討を行うことができた.このため,当初の計画以上に進展しているといえる.

Strategy for Future Research Activity

今後は,課題(2)のスペクトルにおける位相情報のモデル化を行いテキスト音声合成器の構築を行うこと,また,さらなる音声合成器の高精度化を目指し,課題(3)のDNNを用いた音声波形のダイレクトモデリング手法確立の検討を進める.

  • Research Products

    (7 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Acknowledgement Compliant: 1 results) Presentation (6 results) (of which Int'l Joint Research: 2 results,  Invited: 1 results)

  • [Journal Article] Investigation of Using Continuous Representation of Various Linguistic Units in Neural Network based Text-to-Speech Synthesis2016

    • Author(s)
      Xin Wang, Shinji Takaki, Junichi Yamagishi
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E99-D(10) Pages: 2471-2480

    • DOI

      10.1587/transinf.2016SLP0011

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] An Autoregressive Recurrent Mixture Density Network for Parametric Speech Synthesis2017

    • Author(s)
      Xin Wang, Shinji Takaki, Junichi Yamagishi
    • Organizer
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • Place of Presentation
      Hilton Conference Centre, New Orleans, USA
    • Year and Date
      2017-03-07
    • Int'l Joint Research
  • [Presentation] とてもDeepなテキスト音声合成2017

    • Author(s)
      高木 信二
    • Organizer
      音声研究会
    • Place of Presentation
      東京大学
    • Year and Date
      2017-01-21
    • Invited
  • [Presentation] DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成2016

    • Author(s)
      高木 信二,SangJin Kim,亀岡 弘和,山岸 順一
    • Organizer
      第18回音声言語シンポジウム
    • Place of Presentation
      NTT武蔵野研究開発センタ
    • Year and Date
      2016-12-20
  • [Presentation] DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討2016

    • Author(s)
      Hieu Thi Luong, 高木信二, SangJin Kim, 山岸順一
    • Organizer
      音声研究会
    • Place of Presentation
      静岡大学
    • Year and Date
      2016-10-27
  • [Presentation] Speaker Adaptation of Various Components in Deep Neural Network based Speech Synthesis2016

    • Author(s)
      Shinji Takaki, SangJin Kim, Junichi Yamagishi
    • Organizer
      9th Speech Synthesis Workshop (SSW9)
    • Place of Presentation
      Plug and Play Tech Center
    • Year and Date
      2016-09-14
    • Int'l Joint Research
  • [Presentation] 巨大特定話者データを用いたHMM・DNN・RNNに基づく音声合成システムの性能評価2016

    • Author(s)
      Wang Xin,高木 信二,山岸 順一
    • Organizer
      第112回音声言語情報処理研究
    • Place of Presentation
      山形県天童市鎌田本町・天童温泉・ほほえみの宿「滝の湯」
    • Year and Date
      2016-07-28

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi