• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Direct modeling of speech waveform using a DNN for text-to-speech synthesis

Research Project

Project/Area Number 16K16096
Research InstitutionNational Institute of Informatics

Principal Investigator

高木 信二  国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)

Project Period (FY) 2016-04-01 – 2019-03-31
Keywords音声合成 / DNN / スペクトル
Outline of Annual Research Achievements

本研究では、従来のテキスト音声合成に含まれるヒューリスティックに用いられてきた処理や仮定を取り除き、Deep Neural Network (DNN)を用いた音声波形のダイレクトモデリング手法に基づくテキスト音声合成器の実現を目的とする。研究計画は、課題1: ヒューリスティックなスペクトル包絡推定処理を取り除き、統計アプローチに基づく高精度なスペクトルのモデル化、課題2: スペクトルにおける位相情報のモデル化、課題3: DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる。

課題(1)については、音声合成器のためのより高精度な振幅スペクトルのモデル化を検討した。ヒューリスティックな処理を除いた単純な窓掛とフーリエ変換を用いて得られたスペクトルのモデル化を実現した。提案スペクトルモデルを用いることで、従来ボコーダを用いないテキスト音声合成器の構築を行い、提案手法による合成音声の品質向上を示した。課題(2)については、振幅スペクトルだけでなく位相情報も含めたスペクトルのモデル化を検討し、テキスト音声合成実験により有効性を示した。また、課題(3)については音声波形を直接モデル化を検討し、スペクトルの情報を利用したモデルの学習を提案した。これにより、本研究で目的としていたDNNを用いた音声波形のダイレクトモデリング手法を実現され、また、実験により提案モデルを組み込んだテキスト音声合成器の有効性を示した。

  • Research Products

    (3 results)

All 2019 2018

All Journal Article (1 results) Presentation (2 results)

  • [Journal Article] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

    • Author(s)
      Nakashika Toru、Takaki Shinji、Yamagishi Junichi
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 27 Pages: 244~254

    • DOI

      10.1109/TASLP.2018.2877465

  • [Presentation] CWTスペクトル誤差に基づくDNN音声波形モデルの学習2019

    • Author(s)
      高木 信二, 亀岡 弘和, 山岸 順一
    • Organizer
      音声研究会
  • [Presentation] スペクトル系列誤差に基づくDNN音声波形モデルの学習2018

    • Author(s)
      高木 信二, 中鹿 亘, 山岸 順一
    • Organizer
      日本音響学会秋季研究発表会

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi