研究課題
本研究では,従来のテキスト音声合成器に含まれるヒューリスティックに用いられていた処理や仮定を取り除き,最終的にDeep Neural Network (DNN) を用いた音声波形のダイレクトモデリング手法に基づく音声合成器の実現を目的とする.研究計画は,課題1:ヒューリスティックなスペクトル包絡推定処理を取り除き,統計アプローチに基づく高精度なスペクトルのモデル化,課題2:スペクトルにおける位相情報のモデル化,課題3:DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる.当該年度は課題(1)を中心に取り組んだ.課題(1)については,音声合成器のためのより高精度なスペクトル包絡モデル化を検討した.ヒューリスティックな処理を除いた,単純な窓かけとフーリエ変換を用いて得られたスペクトルを用い,高精度なスペクトルのモデル化を実現した.実現された高精度なスペクトルモデルを用いることで,ボコーダを用いない音声合成器構築の検討も行った.主観評価実験の結果から,ボコーダを用いたテキスト音声合成器と比較し,提案手法による合成音声の品質の向上を示した.また,課題(2)についても位相情報を含めたスペクトルのモデル化についても研究を進めており,位相情報を含めたスペクトルからの特徴量抽出を検討した.また,位相情報を含めたスペクトルから抽出された特徴量を用いたテキスト音声合成構築の理論整備も行った.
1: 当初の計画以上に進展している
当該年度は課題(1)の高精度なスペクトルのモデル化,及び,テキスト音声合成器の構築を目的としていたが,課題(1)を達成し,課題(2)の初期検討を行うことができた.このため,当初の計画以上に進展しているといえる.
今後は,課題(2)のスペクトルにおける位相情報のモデル化を行いテキスト音声合成器の構築を行うこと,また,さらなる音声合成器の高精度化を目指し,課題(3)のDNNを用いた音声波形のダイレクトモデリング手法確立の検討を進める.
すべて 2017 2016
すべて 雑誌論文 (1件) (うち査読あり 1件、 謝辞記載あり 1件) 学会発表 (6件) (うち国際学会 2件、 招待講演 1件)
IEICE Transactions on Information and Systems
巻: E99-D(10) ページ: 2471-2480
10.1587/transinf.2016SLP0011