2019 年度実績報告書

ガウス過程潜在変数モデルを用いた韻律の分散表現

研究課題

研究課題/領域番号	17K12711
研究機関	東京大学
研究代表者	郡山知樹東京大学, 大学院情報理工学系研究科, 助教 (50749124)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	統計的音声合成 / ガウス過程潜在変数モデル / 生成モデル / 深層ガウス過程 / アクセント / 韻律
研究実績の概要	音声情報処理における基本であるアクセントやトーン(声調)，感情表現や発話意図などのラベリングや認識を目的としたピッチ曲線のモデル化手法として，ガウス過程潜在変数モデルを用いた，韻律の分散表現の開拓・確立を目的として，本年度は以下の成果を得た．１．前年度に確立した深層ガウス過程(DGP)の音声合成を拡張することにより，韻律の分散表現を獲得する手法を提案した．具体的には音声合成における入力言語特徴量のうちアクセントを表す変数を未知とし，変分ベイズ法を用いて言語特徴量を表す分散表現を推論する．これを用いることで音声合成の半教師あり学習を行うことができる．アノテーションコストの高い日本語のアクセントに対して評価実験を行い，アクセントラベルの付与された音声データが1割程度であっても，すべてのデータにラベルが付与されている場合と同程度に品質の高い合成音声を生成可能であることを示した． 2．また，DGP音声合成の応用として，多人数の音声を同時にモデル化する多話者音声合成への適用を行った．多話者音声合成において，話者空間をガウス過程回帰により表現する手法を提案し，DGP音声合成がDNN音声合成と比較して自然性の高い音声を合成できることを示した．さらに，潜在変数モデルを多話者音声合成に用いることで，より解釈しやすい話者空間の構築および，目標話者の発話数が少量の場合でも音声合成が可能であることを示した．

研究成果
(9件)

すべて 2020 2019

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (8件) (うち国際学会 3件)

[雑誌論文] Statistical Parametric Speech Synthesis Using Deep Gaussian Processes2019
- 著者名/発表者名
  Tomoki Koriyama, Takao Kobayashi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27 ページ: 948～959
- DOI
  10.1109/TASLP.2019.2905167
- 査読あり / オープンアクセス
[学会発表] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020
- 著者名/発表者名
  Tomoki Koriyama, Hiroshi Saruwatari
- 学会等名
  Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), (May 2020)
- 国際学会
[学会発表] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020
- 著者名/発表者名
  郡山知樹, 猿渡洋
- 学会等名
  日本音響学会2020年春季研究発表会講演論文集, 2-Q-44, pp.1127-1128. (Mar. 2020)
[学会発表] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020
- 著者名/発表者名
  芹川武尊, 郡山知樹, 猿渡洋
- 学会等名
  日本音響学会2020年春季研究発表会講演論文集, 2-2-2, pp.1077-1078. (Mar. 2020)
[学会発表] 深層ガウス過程に基づく多話者音声合成2020
- 著者名/発表者名
  三井健太郎, 郡山知樹, 猿渡洋
- 学会等名
  日本音響学会2020年春季研究発表会講演論文集, 1-2-2, pp.1043-1044. (Mar. 2020)
[学会発表] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020
- 著者名/発表者名
  三井健太郎, 郡山知樹, 猿渡洋
- 学会等名
  電子情報通信学会技術研究報告, vol.119, no.398, SP2019-49, pp.31-36
[学会発表] Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model2019
- 著者名/発表者名
  Tomoki Koriyama, Takao Kobayashi
- 学会等名
  Proc. 20th Annual Conference of the International Speech Communication (INTERSPEECH 2019), pp.4450-4454. (Sept. 2019)
- 国際学会
[学会発表] A Training Method Using DNN-guided Layerwise Pretraining For Deep Gaussian Processes2019
- 著者名/発表者名
  Tomoki Koriyama, Takao Kobayashi
- 学会等名
  Proc. 44th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019), pp.4785-4789. (May 2019)
- 国際学会
[学会発表] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019
- 著者名/発表者名
  郡山知樹, 猿渡洋
- 学会等名
  日本音響学会2019年秋季研究発表会講演論文集, 1-P-25, pp.1025-1026. (Sept. 2019)

2019 年度 実績報告書

ガウス過程潜在変数モデルを用いた韻律の分散表現

研究代表者

郡山 知樹 東京大学, 大学院情報理工学系研究科, 助教 (50749124)

研究成果

[雑誌論文] Statistical Parametric Speech Synthesis Using Deep Gaussian Processes2019

著者名/発表者名

雑誌名

DOI

[学会発表] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

著者名/発表者名

学会等名

[学会発表] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020

著者名/発表者名

学会等名

[学会発表] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020

著者名/発表者名

学会等名

[学会発表] 深層ガウス過程に基づく多話者音声合成2020

著者名/発表者名

学会等名

[学会発表] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020

著者名/発表者名

学会等名

[学会発表] Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model2019

著者名/発表者名

学会等名

[学会発表] A Training Method Using DNN-guided Layerwise Pretraining For Deep Gaussian Processes2019

著者名/発表者名

学会等名

[学会発表] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019

著者名/発表者名

学会等名

2019 年度実績報告書

郡山知樹東京大学, 大学院情報理工学系研究科, 助教 (50749124)