• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

Research Project

Project/Area Number 16K16096
Research InstitutionNational Institute of Informatics

Principal Investigator

高木 信二  国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)

Project Period (FY) 2016-04-01 – 2019-03-31
Keywords音声合成 / ディープニューラルネットワーク / 信号処理
Outline of Annual Research Achievements

本研究では,従来のテキスト音声合成器に含まれるヒューリスティックに用いられていた処理や仮定を取り除き,最終的にDeep Neural Network (DNN)を用いた音声波形のダイレクトモデリング手法に基づく,テキスト音声合成器の実現を目的とする.研究計画は,課題1:ヒューリスティックなスペクトル包絡推定処理を取り除き,統計アプローチに基づく高精度なスペクトルのモデル化,課題2:スペクトルにおける位相情報のモデル化,課題3:DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる.当該年度は課題(2)を中心に取り組んだ.
従来,音声から短時間フーリエ変換により得られた複素スペクトルは,その振幅値のみを用いることが多いが,課題(2)において,振幅スペクトル・位相スペクトルに分離することなく,位相情報を含む複素スペクトルの直接モデル化を検討した.複素スペクトルから実数特徴量の抽出を行うことが可能となる.本手法を用いた音声の分析/再合成実験を行い,ボコーダとの比較を行った.主観評価実験の結果から,提案手法による合成音声の品質の向上を示した.また,提案手法により複素スペクトルから抽出された特徴量を用いた,テキスト音声合成器の構築の検討を行った.また,異なるアプローチとして,位相スペクトルのモデル手法の検討を行った.
また,課題(3)について,振幅スペクトル・位相スペクトルモデリングに基づく音声波形モデリングの理論整備を行った

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当該年度で計画していた位相情報を含めたスペクトルのモデリングに関する研究は順調に進展したため.

Strategy for Future Research Activity

今後は,課題(3)のDNNを用いた音声波形のダイレクトモデリング手法の確立を行い,テキスト音声合成器の構築を行うことを進める.

  • Research Products

    (5 results)

All 2018 2017

All Journal Article (1 results) Presentation (4 results) (of which Int'l Joint Research: 3 results,  Invited: 1 results)

  • [Journal Article] Investigating very deep highway networks for parametric speech synthesis2018

    • Author(s)
      Wang Xin、Takaki Shinji、Yamagishi Junichi
    • Journal Title

      Speech Communication

      Volume: 96 Pages: 1~9

    • DOI

      https://doi.org/10.1016/j.specom.2017.11.002

  • [Presentation] ディープラーニングによるテキスト音声合成の進展2018

    • Author(s)
      高木信二
    • Organizer
      日本音響学会春季研究発表会
    • Invited
  • [Presentation] Direct modeling of frequency spectra and waveform generation based on phase recovery for DNN-based speech synthesis2017

    • Author(s)
      Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Complex-valued restricted Boltzmann machine for direct learning of frequency spectra2017

    • Author(s)
      Toru Nakashika, Shinji Takaki, Junichi Yamagishi
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Generative Adversarial Network-based Postfilter for STFT Spectrograms2017

    • Author(s)
      Takuhiro Kaneko, Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
    • Organizer
      INTERSPEECH
    • Int'l Joint Research

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi