2021 年度実績報告書

階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術

研究課題

研究課題/領域番号	19H04136
研究機関	名古屋工業大学
研究代表者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究分担者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	音声合成 / 深層学習
研究実績の概要	本研究の目的は、従来のデファクトスタンダードであった隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発である。近年のEnd-to-End音声合成は、非常に高品質な合成音声を再現可能である一方で、次のような3つの問題点があった。１．従来手法に比べ学習に大量のデータが必要、2．直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3．入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、従来の隠れマルコフモデルに基づく音声合成における知見を積極的に利用した「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、上記の問題を解決した音声合成手法の構築を目指している。令和３年度は「統計的生成モデルに基づくニューラルネットワークの構造化」として、波形生成部および音響モデル部における構造化の改良に取り組んだ。波形生成部においては、前年度に提案した音声の周期・非周期性に関する構造を組み込んだモデルに対し、より適切な構造化が行われるような周期・非周期特性に関する評価関数を導入し、合成音声の自然性が改善されることを示した。音響モデルの構造化については、前年度に提案した隠れセミマルコフモデルを組み込んだニューラルネットワークにおいて、合成音声の品質改善や計算量・メモリ削減に取り組み、有効性を示した。さらに、「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」として提案した階層化生成モデルに、隠れセミマルコフモデルに基づく構造化ニューラルネットワークを組み込むことにより、変分オートエンコーダに基づく階層構造が音響モデルの性能改善に有効であることを示した。
現在までの達成度 (段落)	令和3年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和3年度が最終年度であるため、記入しない。

研究成果

(12件)

すべて 2022 2021

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (10件) (うち国際学会 2件)

[雑誌論文] Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System2021
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 29 ページ: 2803-2815
- DOI
  10.1109/TASLP.2021.3104165
- 査読あり / オープンアクセス
[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 137599-137612
- DOI
  10.1109/ACCESS.2021.3118033
- 査読あり / オープンアクセス
[学会発表] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022
- 著者名/発表者名
  平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022
- 著者名/発表者名
  佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022
- 著者名/発表者名
  法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2022年春季研究発表会
[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021
- 著者名/発表者名
  Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021
- 著者名/発表者名
  高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] DNN歌声合成のための調子はずれ補正2021
- 著者名/発表者名
  法野行哉, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] 発声タイミングのずれを考慮したsequence-to-sequence歌声合成2021
- 著者名/発表者名
  法野行哉, 加藤大誠, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会
[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021
- 著者名/発表者名
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2021年秋季研究発表会

2021 年度 実績報告書

階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術

研究代表者

南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)

研究成果

[雑誌論文] Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

著者名/発表者名

雑誌名

DOI

[学会発表] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

著者名/発表者名

学会等名

[学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

著者名/発表者名

学会等名

[学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

著者名/発表者名

学会等名

[学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022

著者名/発表者名

学会等名

[学会発表] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

著者名/発表者名

学会等名

[学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

著者名/発表者名

学会等名

[学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

著者名/発表者名

学会等名

[学会発表] DNN歌声合成のための調子はずれ補正2021

著者名/発表者名

学会等名

[学会発表] 発声タイミングのずれを考慮したsequence-to-sequence歌声合成2021

著者名/発表者名

学会等名

[学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

著者名/発表者名

学会等名

2021 年度実績報告書

南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)