2019 Fiscal Year Research-status Report
A Study of Deep Gaussian Process Based Statistcal Speech Synthesis
Project/Area Number |
19K20292
|
Research Institution | The University of Tokyo |
Principal Investigator |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 助教 (50749124)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | ガウス過程 / 系列モデリング / 音声合成 / 深層学習 |
Outline of Annual Research Achievements |
未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を用いた音声合成において,より柔軟性の高いモデルを実現する手法として,本年度は以下の成果を得た. 1.従来のDGPに基づく音声合成では,音声の特定のフレーム間の関係のみをモデル化するシンプルなモデルだった.しかし,音声は時系列上で連続的に変化する特徴があり,発話系列全体でのモデル化を行う必要がある.本研究ではガウス過程を用いた場合でも高速な計算の可能なsimple recurrent unit (SRU)をDGP音声合成に導入することで,従来法だけでなくリカレントニューラルネットワークを用いた音声合成よりも品質の高い音声合成を実現した. 2.深層学習に基づく音声合成システムでは,複数の離散的な層を用いることで,高品質な音声合成を実現しているが,モデルの解釈が難しいという問題がある.そこで,偏微分方程式に基づく連続的な層用いたコンパクトな深層学習手法が提案されている.本研究では,確率偏微分方程式の微小な変化量をガウス過程回帰によって予測するDiffGPモデルの音声合成における有効性を検討した.その結果同程度のモデルサイズを持つDGP音声合成に比べ自然性の高い音声合成が実現できることを示した. 3.end-to-end音声合成は複雑な前処理を用いずに系列・系列間変換を実現できることから,大量のデータを利用しやすい手法として近年研究が進められている.本研究ではend-to-endシステムのDGP音声合成への適用の事前段階として,音声変換における安定性の高い系列・系列間変換手法を検討した.具体的には自由度の高い注意機構を時間伸縮推定部と特徴量変換部の機能に分解することで,容易に系列・系列間変換を行えることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は,深層ガウス過程(DGP)のより複雑なモデルへの拡張可能性を示すことである.Simple recurrent unitを用いて発話系列単位のモデリングは大きな目標の一つであり,これが達成されたことにより順調に進展していると言える.
|
Strategy for Future Research Activity |
当初の計画通り,入力の言語特徴量系列と出力の音声特徴量系列の変換をより柔軟に行う手法である注意機構モデルを,DGP音声合成に組み込むことを推し進める.このときより安定した系列・系列間変換を導入し,DGPの汎用的な深層学習としての可能性を検討する. さらに理解可能な深層学習を目指して,確率偏微分方程式を用いた連続的な層の表現手法を用いた音声合成の確立を目指す.
|
Causes of Carryover |
2年度目の研究内容は計算機により学習時間が大量に必要な系列・系列間変換が主である.計算機利用には大量のGPUを利用可能なクラウドサービスを利用が当初の必要量を超過したため,次年度使用額が生じた. 翌年度はクラウドサービスにおける計算機利用と,研究協力者への謝金を主として研究費を使用する予定である.
|
Research Products
(6 results)