2021 Fiscal Year Annual Research Report

A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Research Project

Project/Area Number	19K20292
Research Institution	The University of Tokyo
Principal Investigator	郡山知樹東京大学, 大学院情報理工学系研究科, 講師 (50749124)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	ガウス過程 / 音声合成 / 深層学習 / end-to-endモデル / 深層ガウス過程 / 音声情報処理
Outline of Annual Research Achievements	未知のデータに頑健なモデルして提案されている深層ガウス過程(Deep Gaussian process, DGP)を、時系列のモデル化が必要な音声合成に応用する手法を考案するのが、本研究課題の目的である。これまでは、ニューラルネットワークで広く用いられるリカレント構造がDGPにおいても有効であることを示していた。本年度は、言語・音声に対するニューラルネットワークの時系列モデルで広く使用されている構造である、sequence-to-sequence構造およびself-attention構造に対して、DGP音声合成への応用を行い実験的に構造の有効性を示した。 Sequence-to-sequence構造は近年の仮名などシンプルな特徴を入力から音声を出力するEnd-to-end音声合成において重要な構造であり、文字と音声といった系列長が異なる2種類の系列の変換を行う構造である。本研究ではFastSpeech型のsequence-to-sequence構造で用いられる音素毎の特徴量を伸張するlength regulatorをDGPを用いて実現した。これによってシンプルな入力でもDGP音声合成で自然性の高い音声を生成できることを示した。また、リカレント構造は音声の滑らかな変化をモデル化するには効果的だったが、音素のような離散的な特徴を捉えるには不十分であった。そこで、本研究では言語モデルで広く用いられるself-attentionをDGPで表現する手法を検討した。具体的には、self-attentionの線形変換をガウス過程回帰に置き換える処理を行うことによって、self-attentionと同様の機能が得られることを示した。本研究によって、ニューラルネットワークに用いられる様々な構造がDGPでも実現可能であり、ベイズの特徴を用いた頑健な深層学習ができることを示した。

Research Products
(6 results)

All 2022 2021

All Presentation (6 results) (of which Int'l Joint Research: 3 results)

[Presentation] アクセント潜在変数を用いた方言音声合成における文単位生成の評価2022
- Author(s)
  湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021
- Author(s)
  Taiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. Interspeech 2021
- Int'l Joint Research
[Presentation] Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator2021
- Author(s)
  Kazuki Mizuta, Tomoki Koriyama, Hiroshi Saruwatari
- Organizer
  Proc. Interspeech 2021
- Int'l Joint Research
[Presentation] Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder2021
- Author(s)
  Kazuya Yufune, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari
- Organizer
  Proc. 11th ISCA Speech Synthesis Workshop (SSW 11)
- Int'l Joint Research
[Presentation] Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成2021
- Author(s)
  中村泰貴, 郡山知樹, 猿渡洋
- Organizer
  日本音響学会2021年秋季研究発表会講演論文集
[Presentation] VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成2021
- Author(s)
  湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会2021年秋季研究発表会講演論文集

2021 Fiscal Year Annual Research Report

A Study of Deep Gaussian Process Based Statistcal Speech Synthesis

Principal Investigator

郡山 知樹 東京大学, 大学院情報理工学系研究科, 講師 (50749124)

Research Products

[Presentation] アクセント潜在変数を用いた方言音声合成における文単位生成の評価2022

Author(s)

Organizer

[Presentation] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021

Author(s)

Organizer

[Presentation] Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator2021

Author(s)

Organizer

[Presentation] Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder2021

Author(s)

Organizer

[Presentation] Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成2021

Author(s)

Organizer

[Presentation] VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成2021

Author(s)

Organizer

郡山知樹東京大学, 大学院情報理工学系研究科, 講師 (50749124)