2016 Fiscal Year Research-status Report
テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング
Project/Area Number |
16K16096
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高木 信二 国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 音声合成 / DNN |
Outline of Annual Research Achievements |
本研究では,従来のテキスト音声合成器に含まれるヒューリスティックに用いられていた処理や仮定を取り除き,最終的にDeep Neural Network (DNN) を用いた音声波形のダイレクトモデリング手法に基づく音声合成器の実現を目的とする.研究計画は,課題1:ヒューリスティックなスペクトル包絡推定処理を取り除き,統計アプローチに基づく高精度なスペクトルのモデル化,課題2:スペクトルにおける位相情報のモデル化,課題3:DNNを用いた音声波形のダイレクトモデリング手法の確立に大きく分けられる.当該年度は課題(1)を中心に取り組んだ. 課題(1)については,音声合成器のためのより高精度なスペクトル包絡モデル化を検討した.ヒューリスティックな処理を除いた,単純な窓かけとフーリエ変換を用いて得られたスペクトルを用い,高精度なスペクトルのモデル化を実現した.実現された高精度なスペクトルモデルを用いることで,ボコーダを用いない音声合成器構築の検討も行った.主観評価実験の結果から,ボコーダを用いたテキスト音声合成器と比較し,提案手法による合成音声の品質の向上を示した.また,課題(2)についても位相情報を含めたスペクトルのモデル化についても研究を進めており,位相情報を含めたスペクトルからの特徴量抽出を検討した.また,位相情報を含めたスペクトルから抽出された特徴量を用いたテキスト音声合成構築の理論整備も行った.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当該年度は課題(1)の高精度なスペクトルのモデル化,及び,テキスト音声合成器の構築を目的としていたが,課題(1)を達成し,課題(2)の初期検討を行うことができた.このため,当初の計画以上に進展しているといえる.
|
Strategy for Future Research Activity |
今後は,課題(2)のスペクトルにおける位相情報のモデル化を行いテキスト音声合成器の構築を行うこと,また,さらなる音声合成器の高精度化を目指し,課題(3)のDNNを用いた音声波形のダイレクトモデリング手法確立の検討を進める.
|