2021 Fiscal Year Research-status Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Research Project

Project/Area Number	20K11862
Research Institution	Nagoya Institute of Technology
Principal Investigator	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	音声合成 / 音声情報処理
Outline of Annual Research Achievements	本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。本年度は、音声に含まれる言語・話者に依存する特徴を分離しながら音声合成用モデルを学習するために、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組んだ。エンコーダにおいて獲得した発話単位の潜在変数と言語依存層を用いた言語特徴量から、音響特徴量を復元するように学習を行うことで、発話単位に変動する話者情報を言語情報と分離しながら獲得する。さらに、デコーダの出力に対し、時間変動を考慮した学習の導入、フレーム単位の音響特徴量の識別器を用いた敵対的学習の導入を行った。MOS試験による主観評価実験の結果、学習データに含まれない言語・話者の組み合わせにおいて、提案法はより自然性の高い音声を生成することを示した。さらに、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造として、話者を表す潜在変数と感情（発話スタイル）を表す潜在変数を導入した変分オートエンコーダに基づく音声合成手法を提案した。また、顔画像から話者の特徴を再現するための枠組みとして、変分オートエンコーダに基づく手法を提案した。こちらでは、顔画像から獲得した潜在変数が音声から獲得した話者の潜在変数と一致するような制約を導入することで、顔画像から話者（声質）の特徴を予測可能とし、音声情報を用いることなく声質を再現した合成音声の生成を実現した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究は、任意の言語・話者・感情の組み合わせの合成音声を生成可能とするために、言語・話者・感情それぞれに依存する特徴や言語・話者・感情に非依存な特徴を深層学習によって獲得するためのモデル構造、モデル学習法、補助特徴量に関する研究開発を並行して進めている。本年度は、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組み、言語・話者・感情それぞれに依存する特徴を分離しながらモデル化するためのモデル構造、モデル学習法について検討を進めた。また、話速に注目し、言語・話者に依存した情報を分離しながら学習するためのモデル構造についても検討を進めた。評価実験の結果から、その有効性を示した。さらに、話者と感情に注目し、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造を提案し、さらに、このモデル構造において適切なモデル学習法についても検討を進めた。補助特徴についても検討を進めており、顔画像と音声の変分オートエンコーダを同時に学習する際に、話者を表現する潜在変数と顔画像から得られる潜在変数が近づくような制約を導入することで、顔画像から話者の特徴（声質）を予測することが可能なモデルを提案した。以上のことから、おおむね順調に進展しているといえる。
Strategy for Future Research Activity	本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、変分オートエンコーダに基づくモデル構造を提案し、さらに、時間変動を考慮したモデル学習、音響特徴量に対する識別器を用いた敵対的学習を導入し、主観評価実験によって有効性を示した。引き続き、言語・話者に依存する音声の特徴を適切に分離することが可能なモデル構造やモデル学習法の解明に取り組む。特に、異なる言語において話者の特徴をより適切に再現するためのモデル学習法について検討を進める。また、異なる言語において話者・感情を再現するための補助特徴量としては、顔画像を利用したモデル構造についても検討を進める。本年度は顔画像と音声の変分オートエンコーダを同時に学習し、顔画像から得られる潜在変数と音声から得られる潜在変数が一致するような制約を導入したモデル学習法を提案した。実験結果から、顔画像からある程度の情報を獲得し、声質を予測可能であることを示したが、さらなる予測精度の改善を目指す。適切なモデル構造とモデル学習法について検討を進め、顔画像から話者の特徴を予測する精度を改善させる。
Causes of Carryover	本年度は、新型コロナウイルスの影響もあり、旅費については当初予定から減額が生じたため、次年度使用額が生じた。次年度予算と合わせて深層学習用のGPU計算機の購入に使用する予定である。

Research Products
(8 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (7 results) (of which Int'l Joint Research: 1 results)

[Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021
- Author(s)
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Journal Title
  
  IEEE Access
  
  Volume: 9 Pages: 137599-137612
- DOI
  10.1109/ACCESS.2021.3118033
- Peer Reviewed / Open Access
[Presentation] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022
- Author(s)
  平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022
- Author(s)
  佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022
- Author(s)
  法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021
- Author(s)
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021
- Author(s)
  高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年秋季研究発表会

2021 Fiscal Year Research-status Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Principal Investigator

橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

Current Status of Research Progress

Reason

Research Products

[Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

Author(s)

Journal Title

DOI

[Presentation] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

Author(s)

Organizer

[Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

Author(s)

Organizer

[Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

Author(s)

Organizer

[Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022

Author(s)

Organizer

[Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

Author(s)

Organizer

[Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

Author(s)

Organizer

橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)