2020 Fiscal Year Research-status Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Research Project

Project/Area Number	20K11862
Research Institution	Nagoya Institute of Technology
Principal Investigator	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	音声合成 / 音声情報処理
Outline of Annual Research Achievements	本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入した。話者非依存層はすべての言語・話者において共有されており、この層を導入することで、複数の言語に共通する話者に非依存な中間表現を獲得する。話者非依存層を導入することで、話者非依存の特徴と話者依存の特徴が明確となり、異なる言語において入力音声の話者を再現することが可能となった。MOS試験による主観評価実験の結果、話者非依存層を導入することで合成音声の自然性に関するスコアを改善し、提案法の有効性を示した。また、言語・話者に依存しない中間表現を獲得するために、話者非依存層から出力される中間表現に対し、話者識別器を用いた敵対的学習を適用することで、より話者非依存な特徴表現を獲得することを目指した。MOS試験による主観評価実験の結果、敵対的学習を導入することでスコアは改善されなかった。これは、話者非依存層を導入することで話者非依存な特徴をある程度獲得することができており、話者識別器を用いた敵対的学習の効果が小さかったことや、敵対的学習によって話者以外の情報についても中間表現から取り除かれてしまったことが考えられる。この他、話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造についての検討や、顔画像から話者を再現するための枠組みについて検討を進めている。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究は、任意の言語・話者・感情の組み合わせの合成音声を生成可能とするために、言語・話者・感情それぞれに依存する特徴や言語・話者・感情に非依存な特徴を深層学習によって獲得するために、モデル構造、モデル学習法、補助特徴量に関する研究開発を並行して進めることとした。本年度は言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入し、主観評価実験による評価を行った。また、話者非依存層から出力される中間表現に対し、話者識別器を用いた敵対的学習を適用し、主観評価実験による評価を行った。さらに、話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造についての検討や、顔画像から話者を再現するための枠組みについて検討を進めている。以上のことから、おおむね順調に進展しているといえる。
Strategy for Future Research Activity	本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入し、その有効性を示した。引き続き、言語・話者・感情に依存する音声の特徴を分離することが可能なモデル構造の解明に取り組む。言語・話者に依存しない中間表現を獲得するための敵対的学習については、本年度は、その有効性については確認できなかった。導入する識別器の構造や対象について引き続き検討を進め、異なる話者において話者・感情を再現するためのモデル学習法の解明に取り組む。また、生成器の出力に対し敵対的学習を導入することで出力音声の話者・感情を再現する手法についても有効性の検証をする。異なる言語において話者・感情を再現するための補助特徴量としては、まず、顔画像を利用する。音声と対応づいていない顔画像データを用いた半教師あり学習について検討を進める。
Causes of Carryover	本年度は、新型コロナウイルスの影響もあり、旅費については当初予定から減額が生じたため、次年度使用額が生じた。また、物品の購入を予定していたが、既存の物を有効活用することで、本年度購入する必要がなくなったため、次年度使用額が生じた。次年度予算と合わせてモデル学習用GPU計算機の購入に使用する予定である。

Research Products
(12 results)

All 2021 2020

All Presentation (12 results) (of which Int'l Joint Research: 1 results)

[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021
- Author(s)
  角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021
- Author(s)
  岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 深層学習に基づく音声合成における顔画像を用いた話者適応2020
- Author(s)
  平光啓祐，橋本佳，徳田恵一，南角吉彦
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声合成における特徴的な発話スタイルの転移学習2020
- Author(s)
  久野宏彰，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020
- Author(s)
  大谷眞史，佐藤優介，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020
- Author(s)
  岩田康平，高木信二，橋本佳，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020
- Author(s)
  Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] 感情音声合成のためのDirichlet VAE2020
- Author(s)
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020
- Author(s)
  大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会

2020 Fiscal Year Research-status Report

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

Principal Investigator

橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

Current Status of Research Progress

Reason

Research Products

[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

Author(s)

Organizer

[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

Author(s)

Organizer

[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021

Author(s)

Organizer

[Presentation] 深層学習に基づく音声合成における顔画像を用いた話者適応2020

Author(s)

Organizer

[Presentation] 音声合成における特徴的な発話スタイルの転移学習2020

Author(s)

Organizer

[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020

Author(s)

Organizer

[Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020

Author(s)

Organizer

[Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020

Author(s)

Organizer

[Presentation] 感情音声合成のためのDirichlet VAE2020

Author(s)

Organizer

[Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020

Author(s)

Organizer

[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020

Author(s)

Organizer

橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)