異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

研究課題

研究課題/領域番号	20K11862
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	音声合成 / 音声情報処理
研究開始時の研究の概要	本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立する。深層学習に基づく音声合成において敵対的学習を導入し、言語・話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造・モデル学習法を明らかにする。さらに、異なる言語において入力音声の話者・感情を再現するための補助特徴量として利用者の顔画像や入力テキストを利用する手法を開発する。任意の言語・話者・感情の組み合わせの合成音声を生成可能な多言語音声合成技術を開発することで、自分の声のまま感情も伝えることができる自然な異言語間コミュニケーションの実現を目指す。
研究成果の概要	本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成を実現するために、入力音声の言語・話者・感情それぞれに依存する音声の特徴を分離可能とする多言語音声合成モデルの学習に取り組んできた。特に、言語と話者の特徴を分離するため敵対的学習に基づく多言語音声合成や話者と感情を分離するモデル構造を提案した。また、補助特徴として顔画像を利用するモデルなどを提案した。提案法によって、入力音声と異なる言語において話者の特徴が再現された音声の生成が実現され、より自然なグローバルコミュニケーションの実現が期待される。
研究成果の学術的意義や社会的意義	本研究では、音声に含まれる話者・言語・感情といった3つの特徴に注目し、入力音声と異なる言語において入力音声の声質や感情を再現する多言語音声合成技術に確立に取り組んだ。本研究の成果は、音声翻訳システムに応用することで、自分の話すことができない言語においても、自分の声のまま、感情表現を含む自然なコミュニケーションを実現することが期待される。

報告書

(4件)

研究成果
(25件)

すべて 2023 2022 2021 2020

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (24件) (うち国際学会 4件)

[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 137599-137612
- DOI
  10.1109/access.2021.3118033
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023
- 著者名/発表者名
  Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2023
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022
- 著者名/発表者名
  吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022
- 著者名/発表者名
  石田龍成, 藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022
- 著者名/発表者名
  平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022
- 著者名/発表者名
  佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021
- 著者名/発表者名
  高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021
- 著者名/発表者名
  角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 勾配ブースティング決定木を用いた音声合成手法の検討2021
- 著者名/発表者名
  岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年春季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 深層学習に基づく音声合成における顔画像を用いた話者適応2020
- 著者名/発表者名
  平光啓祐，橋本佳，徳田恵一，南角吉彦
- 学会等名
  第18回情報学ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] 音声合成における特徴的な発話スタイルの転移学習2020
- 著者名/発表者名
  久野宏彰，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020
- 著者名/発表者名
  大谷眞史，佐藤優介，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020
- 著者名/発表者名
  岩田康平，高木信二，橋本佳，南角吉彦，徳田恵一
- 学会等名
  第18回情報学ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020
- 著者名/発表者名
  Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Interspeech 2020
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] 感情音声合成のためのDirichlet VAE2020
- 著者名/発表者名
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020
- 著者名/発表者名
  大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年秋季研究発表会
- 関連する報告書
  2020 実施状況報告書

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

研究代表者

橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

報告書

研究成果

[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 勾配ブースティング決定木を用いた音声合成手法の検討2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習に基づく音声合成における顔画像を用いた話者適応2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声合成における特徴的な発話スタイルの転移学習2020

橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)