A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Research Project

Project/Area Number	19K20292
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	The University of Tokyo
Principal Investigator	Koriyama Tomoki 東京大学, 大学院情報理工学系研究科, 講師 (50749124)
Project Period (FY)	2019-04-01 – 2022-03-31
Project Status	Completed (Fiscal Year 2021)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2020: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000) Fiscal Year 2019: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	ガウス過程 / 深層学習 / 音声合成 / 潜在変数モデル / 時系列モデル / end-to-endモデル / 深層ガウス過程 / 音声情報処理 / 系列モデリング / 時系列モデリング / 機械学習
Outline of Research at the Start	ヒューマン・マシン・コミュニケーションにおいて重要な機能である音声合成において，深層モデルを用いた機械学習は不可欠なものとなっている．しかし，広く用いられる深層ニューラルネットワーク(DNN)は，未知のデータに対する頑健性を保証しないという問題点がある．そこで本研究課題では，未知のデータに頑健なモデルとして提案されている深層ガウス過程に注目し検討を行う．具体的には，統計モデルに基づく音声合成において，DNNに替わるモデルとして深層ガウス過程に基づくモデルを提案し，応用研究の十分でない深層ガウス過程モデルに対し，音声合成への応用を通じて，学習データに頑健な学習法や時系列を考慮したモデル構造を検討する．
Outline of Final Research Achievements	We proposed an extension of deep-Gaussian-process (DGP)-based speech synthesis to enable time-series modeling of speech characteristics. Specifically, we proposed DGP with recurrent, self-attention, and sequence-to-sequence architecture. The proposed speech synthesis methods tend to generate more natural-sound speech than that generated by DNN-based ones that have similar architectures of DGP. The results of this research project show that various structures used in DGP can be used in a similar way to DNN, and that robust deep learning using Bayesian features is possible.
Academic Significance and Societal Importance of the Research Achievements	現在，多くの機械学習の研究はDNNを基盤要素としているが，DNNの学習におけるハイパーパラメータの調整は手間のかかるものであり，機械学習モデルの構築は職人作業のようになっている現状がある．代替となり得るモデルとしてガウス過程回帰に注目が集まっているが，自由度が低く様々なデータに適用できない問題があった．本研究の応用実験によってガウス過程回帰の深層モデルとしての自由度の向上を明らかにした．この成果によって，音声に限らず自由度の高い深層学習モデルの頑健な学習への道筋の一つを示した．

Report

(4 results)

2021 Annual Research Report Final Research Report ( PDF )
2020 Research-status Report
2019 Research-status Report

Research Products
(20 results)

All 2022 2021 2020 2019

All Presentation (20 results) (of which Int'l Joint Research: 6 results)

[Presentation] アクセント潜在変数を用いた方言音声合成における文単位生成の評価2022
- Author(s)
  湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
- Related Report
  2021 Annual Research Report
[Presentation] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021
- Author(s)
  Taiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. Interspeech 2021
- Related Report
  2021 Annual Research Report
- Int'l Joint Research
[Presentation] Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator2021
- Author(s)
  Kazuki Mizuta, Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. Interspeech 2021
- Related Report
  2021 Annual Research Report
- Int'l Joint Research
[Presentation] Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder2021
- Author(s)
  Kazuya Yufune, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari
- Organizer
  Proc. 11th ISCA Speech Synthesis Workshop (SSW 11)
- Related Report
  2021 Annual Research Report
- Int'l Joint Research
[Presentation] Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成2021
- Author(s)
  中村泰貴, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2021年秋季研究発表会講演論文集
- Related Report
  2021 Annual Research Report
[Presentation] VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成2021
- Author(s)
  湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会2021年秋季研究発表会講演論文集
- Related Report
  2021 Annual Research Report
[Presentation] 活性化関数とカーネル関数の関係性を用いたガウス過程音声合成の評価2021
- Author(s)
  郡山知樹, 猿渡洋
- Organizer
  日本音響学会2021年春季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] 深層ガウス過程を用いたsequence-to-sequence音声合成のモデル構造の評価2021
- Author(s)
  中村泰貴, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2021年春季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] 音声の周波数特性を考慮した畳み込み層を持つ波形生成モデルの検討2021
- Author(s)
  水田和輝, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2021年春季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020
- Author(s)
  Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
- Related Report
  2020 Research-status Report
- Int'l Joint Research
[Presentation] Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes2020
- Author(s)
  Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. Interspeech 2020
- Related Report
  2020 Research-status Report
- Int'l Joint Research
[Presentation] 多話者音声合成における深層ガウス過程潜在変数モデルを用いた音響モデル・話者表現の同時学習2020
- Author(s)
  三井健太郎, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年秋季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] 変分オートエンコーダを用いたアクセントの潜在変数表現の検討2020
- Author(s)
  湯舟航耶, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年秋季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討2020
- Author(s)
  中村泰貴, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年秋季研究発表会講演論文集
- Related Report
  2020 Research-status Report
[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020
- Author(s)
  Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), (May 2020)
- Related Report
  2019 Research-status Report
- Int'l Joint Research
[Presentation] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020
- Author(s)
  郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 2-Q-44, pp.1127-1128. (Mar. 2020)
- Related Report
  2019 Research-status Report
[Presentation] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020
- Author(s)
  芹川武尊, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 2-2-2, pp.1077-1078. (Mar. 2020)
- Related Report
  2019 Research-status Report
[Presentation] 深層ガウス過程に基づく多話者音声合成2020
- Author(s)
  三井健太郎, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2020年春季研究発表会講演論文集, 1-2-2, pp.1043-1044. (Mar. 2020)
- Related Report
  2019 Research-status Report
[Presentation] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020
- Author(s)
  三井健太郎, 郡山知樹, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告, vol.119, no.398, SP2019-49, pp.31-36. (Jan. 2020)
- Related Report
  2019 Research-status Report
[Presentation] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019
- Author(s)
  郡山知樹, 猿渡洋
- Organizer
  日本音響学会2019年秋季研究発表会講演論文集, 1-P-25, pp.1025-1026. (Sept. 2019)
- Related Report
  2019 Research-status Report

A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Principal Investigator

Koriyama Tomoki 東京大学, 大学院情報理工学系研究科, 講師 (50749124)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Report

Research Products

[Presentation] アクセント潜在変数を用いた方言音声合成における文単位生成の評価2022

Author(s)

Organizer

Related Report

[Presentation] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021

Author(s)

Organizer

Related Report

[Presentation] Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator2021

Author(s)

Organizer

Related Report

[Presentation] Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder2021

Author(s)

Organizer

Related Report

[Presentation] Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成2021

Author(s)

Organizer

Related Report

[Presentation] VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成2021

Author(s)

Organizer

Related Report

[Presentation] 活性化関数とカーネル関数の関係性を用いたガウス過程音声合成の評価2021

Author(s)

Organizer

Related Report

[Presentation] 深層ガウス過程を用いたsequence-to-sequence音声合成のモデル構造の評価2021

Author(s)

Organizer

Related Report

[Presentation] 音声の周波数特性を考慮した畳み込み層を持つ波形生成モデルの検討2021

Author(s)

Organizer

Related Report

[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

Author(s)

Organizer

Related Report

[Presentation] Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes2020

Author(s)

Organizer

Related Report

[Presentation] 多話者音声合成における深層ガウス過程潜在変数モデルを用いた音響モデル・話者表現の同時学習2020

Author(s)

Organizer

Related Report

[Presentation] 変分オートエンコーダを用いたアクセントの潜在変数表現の検討2020

Author(s)

Organizer

Related Report

[Presentation] 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討2020

Author(s)

Organizer

Related Report

[Presentation] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

Author(s)

Organizer

Related Report

[Presentation] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020

Author(s)

Organizer

Related Report

[Presentation] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020

Author(s)

Organizer

Related Report

[Presentation] 深層ガウス過程に基づく多話者音声合成2020

Author(s)

Organizer

Related Report

[Presentation] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020

Author(s)