2018 Fiscal Year Annual Research Report

Direct modeling of speech waveform using a DNN for text-to-speech synthesis

Research Project

Project/Area Number	16K16096
Research Institution	National Institute of Informatics
Principal Investigator	高木信二国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	音声合成 / DNN / スペクトル
Outline of Annual Research Achievements	本研究では、従来のテキスト音声合成に含まれるヒューリスティックに用いられてきた処理や仮定を取り除き、Deep Neural Network (DNN)を用いた音声波形のダイレクトモデリング手法に基づくテキスト音声合成器の実現を目的とする。研究計画は、課題1: ヒューリスティックなスペクトル包絡推定処理を取り除き、統計アプローチに基づく高精度なスペクトルのモデル化、課題2: スペクトルにおける位相情報のモデル化、課題3: DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる。課題(1)については、音声合成器のためのより高精度な振幅スペクトルのモデル化を検討した。ヒューリスティックな処理を除いた単純な窓掛とフーリエ変換を用いて得られたスペクトルのモデル化を実現した。提案スペクトルモデルを用いることで、従来ボコーダを用いないテキスト音声合成器の構築を行い、提案手法による合成音声の品質向上を示した。課題(2)については、振幅スペクトルだけでなく位相情報も含めたスペクトルのモデル化を検討し、テキスト音声合成実験により有効性を示した。また、課題(3)については音声波形を直接モデル化を検討し、スペクトルの情報を利用したモデルの学習を提案した。これにより、本研究で目的としていたDNNを用いた音声波形のダイレクトモデリング手法を実現され、また、実験により提案モデルを組み込んだテキスト音声合成器の有効性を示した。