2018 年度実績報告書

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

研究課題

研究課題/領域番号	16K16096
研究機関	国立情報学研究所
研究代表者	高木信二国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	音声合成 / DNN / スペクトル
研究実績の概要	本研究では、従来のテキスト音声合成に含まれるヒューリスティックに用いられてきた処理や仮定を取り除き、Deep Neural Network (DNN)を用いた音声波形のダイレクトモデリング手法に基づくテキスト音声合成器の実現を目的とする。研究計画は、課題1: ヒューリスティックなスペクトル包絡推定処理を取り除き、統計アプローチに基づく高精度なスペクトルのモデル化、課題2: スペクトルにおける位相情報のモデル化、課題3: DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる。課題(1)については、音声合成器のためのより高精度な振幅スペクトルのモデル化を検討した。ヒューリスティックな処理を除いた単純な窓掛とフーリエ変換を用いて得られたスペクトルのモデル化を実現した。提案スペクトルモデルを用いることで、従来ボコーダを用いないテキスト音声合成器の構築を行い、提案手法による合成音声の品質向上を示した。課題(2)については、振幅スペクトルだけでなく位相情報も含めたスペクトルのモデル化を検討し、テキスト音声合成実験により有効性を示した。また、課題(3)については音声波形を直接モデル化を検討し、スペクトルの情報を利用したモデルの学習を提案した。これにより、本研究で目的としていたDNNを用いた音声波形のダイレクトモデリング手法を実現され、また、実験により提案モデルを組み込んだテキスト音声合成器の有効性を示した。

研究成果
(3件)

すべて 2019 2018

すべて雑誌論文 (1件) 学会発表 (2件)

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019
- 著者名/発表者名
  Nakashika Toru、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27 ページ: 244～254
- DOI
  10.1109/TASLP.2018.2877465
[学会発表] CWTスペクトル誤差に基づくDNN音声波形モデルの学習2019
- 著者名/発表者名
  高木信二, 亀岡弘和, 山岸順一
- 学会等名
  音声研究会
[学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2018
- 著者名/発表者名
  高木信二, 中鹿亘, 山岸順一
- 学会等名
  日本音響学会秋季研究発表会

2018 年度 実績報告書

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

研究代表者

高木 信二 国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)

研究成果

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

著者名/発表者名

雑誌名

DOI

[学会発表] CWTスペクトル誤差に基づくDNN音声波形モデルの学習2019

著者名/発表者名

学会等名

[学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2018

著者名/発表者名

学会等名

2018 年度実績報告書

高木信二国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)