2022 Fiscal Year Annual Research Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Research Project

Project/Area Number	20K11862
Research Institution	Nagoya Institute of Technology
Principal Investigator	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	音声合成 / 音声情報処理
Outline of Annual Research Achievements	本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、変分オートエンコーダに基づく多言語音声合成モデルにおける循環構造を導入したモデル学習法を提案した。循環構造を導入することで、言語に依存しない話者の情報が抽出可能となった。また、顔画像から話者の特徴を再現するために、顔画像と音声の間の共通潜在変数を導入した顔画像と音声の同時モデル化を提案した。顔画像と音声の間の共通潜在変数を持つことで、顔画像に固有の特徴と、顔画像と音声の間で共有される特徴をモデル化することが可能となった。研究期間全体を通して、本研究では入力音声の言語・話者・感情それぞれに依存する音声の特徴を分離可能とする多言語音声合成モデルの学習に取り組んできた。特に、言語と話者の特徴を分離するために、変分オートエンコーダに基づく多言語音声合成モデルの学習において敵対的学習の導入や循環構造の導入による言語に依存しない話者特徴を抽出するモデル学習法を提案してきた。さらに、補助特徴として顔画像を利用することを提案し、顔画像から話者の声質を予測可能なモデル構造を提案した。提案法によって、入力音声と異なる言語において話者の特徴が再現された音声の生成が実現され、より自然なグローバルコミュニケーションの実現が期待される。

Research Products
(5 results)

All 2023 2022

All Presentation (5 results) (of which Int'l Joint Research: 2 results)

[Presentation] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023
- Author(s)
  Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2023
- Int'l Joint Research
[Presentation] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022
- Author(s)
  吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022
- Author(s)
  石田龍成, 藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- Author(s)
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2022
- Int'l Joint Research

2022 Fiscal Year Annual Research Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Principal Investigator

橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

Research Products

[Presentation] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023

Author(s)

Organizer

[Presentation] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022

Author(s)

Organizer

[Presentation] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022

Author(s)

Organizer

[Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

Author(s)

Organizer

橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)