2019 Fiscal Year Research-status Report

A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Research Project

Project/Area Number	19K20292
Research Institution	The University of Tokyo
Principal Investigator	郡山知樹東京大学, 大学院情報理工学系研究科, 助教 (50749124)
Project Period (FY)	2019-04-01 – 2021-03-31
Keywords	ガウス過程 / 系列モデリング / 音声合成 / 深層学習
Outline of Annual Research Achievements	未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を用いた音声合成において，より柔軟性の高いモデルを実現する手法として，本年度は以下の成果を得た． 1．従来のDGPに基づく音声合成では，音声の特定のフレーム間の関係のみをモデル化するシンプルなモデルだった．しかし，音声は時系列上で連続的に変化する特徴があり，発話系列全体でのモデル化を行う必要がある．本研究ではガウス過程を用いた場合でも高速な計算の可能なsimple recurrent unit (SRU)をDGP音声合成に導入することで，従来法だけでなくリカレントニューラルネットワークを用いた音声合成よりも品質の高い音声合成を実現した． 2．深層学習に基づく音声合成システムでは，複数の離散的な層を用いることで，高品質な音声合成を実現しているが，モデルの解釈が難しいという問題がある．そこで，偏微分方程式に基づく連続的な層用いたコンパクトな深層学習手法が提案されている．本研究では，確率偏微分方程式の微小な変化量をガウス過程回帰によって予測するDiffGPモデルの音声合成における有効性を検討した．その結果同程度のモデルサイズを持つDGP音声合成に比べ自然性の高い音声合成が実現できることを示した． 3．end-to-end音声合成は複雑な前処理を用いずに系列・系列間変換を実現できることから，大量のデータを利用しやすい手法として近年研究が進められている．本研究ではend-to-endシステムのDGP音声合成への適用の事前段階として，音声変換における安定性の高い系列・系列間変換手法を検討した．具体的には自由度の高い注意機構を時間伸縮推定部と特徴量変換部の機能に分解することで，容易に系列・系列間変換を行えることを示した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的は，深層ガウス過程(DGP)のより複雑なモデルへの拡張可能性を示すことである．Simple recurrent unitを用いて発話系列単位のモデリングは大きな目標の一つであり，これが達成されたことにより順調に進展していると言える．
Strategy for Future Research Activity	当初の計画通り，入力の言語特徴量系列と出力の音声特徴量系列の変換をより柔軟に行う手法である注意機構モデルを，DGP音声合成に組み込むことを推し進める．このときより安定した系列・系列間変換を導入し，DGPの汎用的な深層学習としての可能性を検討する．さらに理解可能な深層学習を目指して，確率偏微分方程式を用いた連続的な層の表現手法を用いた音声合成の確立を目指す．
Causes of Carryover	2年度目の研究内容は計算機により学習時間が大量に必要な系列・系列間変換が主である．計算機利用には大量のGPUを利用可能なクラウドサービスを利用が当初の必要量を超過したため，次年度使用額が生じた．翌年度はクラウドサービスにおける計算機利用と，研究協力者への謝金を主として研究費を使用する予定である．

Research Products
(6 results)

All 2020 2019

All Presentation (6 results) (of which Int'l Joint Research: 1 results)

[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020
- Author(s)
  Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), (May 2020)
- Int'l Joint Research
[Presentation] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020
- Author(s)
  郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 2-Q-44, pp.1127-1128. (Mar. 2020)
[Presentation] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020
- Author(s)
  芹川武尊, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 2-2-2, pp.1077-1078. (Mar. 2020)
[Presentation] 深層ガウス過程に基づく多話者音声合成2020
- Author(s)
  三井健太郎, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 1-2-2, pp.1043-1044. (Mar. 2020)
[Presentation] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020
- Author(s)
  三井健太郎, 郡山知樹, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告, vol.119, no.398, SP2019-49, pp.31-36. (Jan. 2020)
[Presentation] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019
- Author(s)
  郡山知樹, 猿渡洋
- Organizer
  日本音響学会2019年秋季研究発表会講演論文集, 1-P-25, pp.1025-1026. (Sept. 2019)

2019 Fiscal Year Research-status Report

A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Principal Investigator

郡山 知樹 東京大学, 大学院情報理工学系研究科, 助教 (50749124)

Current Status of Research Progress

Reason

Research Products

[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

Author(s)

Organizer

[Presentation] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020

Author(s)

Organizer

[Presentation] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020

Author(s)

Organizer

[Presentation] 深層ガウス過程に基づく多話者音声合成2020

Author(s)

Organizer

[Presentation] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020

Author(s)

Organizer

[Presentation] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019

Author(s)

Organizer

郡山知樹東京大学, 大学院情報理工学系研究科, 助教 (50749124)