2018 年度実施状況報告書

ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究課題

研究課題/領域番号	17K20004
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究期間 (年度)	2017-06-30 – 2020-03-31
キーワード	音声合成 / 音声情報処理
研究実績の概要	本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。申請者はこれまでに、ディープニューラルネットワークの枠組みの中で2次元ディジタル・ウェーブガイド・メッシュ調音モデルを定式化し、調音モデルをテキスト音声合成システムに組み込むアイディアを数式として表現した。さらに、導出した数式をもとに調音モデルを組み込んだテキスト音声合成システムを構築することに成功した。しかし、音声波形から調音モデルを逆推定するための実現可能性の検証を重視していたため、シンプルなモデル構造を仮定していた。このため、調音モデルを組み込んだテキスト音声合成システムから生成される音声の品質には改善の余地があった。そこで、WaveNetを始めとする最新の音声波形生成手法との融合を検討し、より自然な音声の生成に取り組んだ。当該年度はWaveNetを用いた音声波形生成において音声の周期・非周期信号の特性の違いを考慮することで、より高品質な合成音声を生成可能とした。さらに、合成音声の声質や感情の制御の検討を行った。ディープニューラルネットワークに基づく音響モデルの入力に話者コードやフレーズコードなどを加えることで、声質や感情を制御可能な音声合成が実現された。従来は話者や発話スタイルなどの大きな分類での制御のみが対象とされてきたが、フレーズコードを導入することでフレーズ単位に細かな制御を加えることが可能となった。さらに敵対的学習などの学習手法を適用することで、より高品質な合成音声を生成可能とした。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由申請者らはこれまでに、調音モデルを組み込んだテキスト音声合成システムを実際に構築してきた。さらに当該年度は音声波形生成手法による合成音声の高品質化や声質の制御が可能なモデルの検討を行っており、進捗状況としては当初の計画以上に進展しているものと言える。
今後の研究の推進方策	本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。申請者はこれまでに、ディープニューラルネットワークの枠組みを利用し、調音モデルを組み込んだテキスト音声合成システムを構築してきた。さらに、WaveNetを始めとする最新の音声波形生成手法との融合を検討し、より自然な音声の生成に取り組んできた。近年、様々な音声波形生成手法が提案されており、非常に高品質な合成音声の生成が可能となった。これらの音声波形生成手法において、音声波形モデルは調音モデルの構造を部分的に含んでいると考えられる。そこで、今後は調音モデルと音声波形モデルの関係性の調査と調音モデルと音声波形モデルの融合に取り組む。さらに、合成音声の声質や感情の制御手法について引き続き検討を行い、あらゆる声質を自由自在に表現可能な音声モデルの構築に取り組む。
次年度使用額が生じた理由	物品の購入を予定していたが、既存のものを有効活用することで今年度購入する必要がなくなったため。翌年度分と合わせてモデル学習用GPU計算機などの物品費、成果発表のための旅費として使用する。

研究成果
(17件)

すべて 2019 2018

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (16件) (うち国際学会 7件)

[雑誌論文] Mel-cepstrum-based quantization noise shaping applied to neural-network-based speech waveform synthesis2018
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 26 ページ: 1173-1180
- DOI
  10.1109/TASLP.2018.2818408
- 査読あり
[学会発表] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019
- 著者名/発表者名
  島田基樹, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] 日本語End-to-End音声合成における入力言語特徴量の影響2019
- 著者名/発表者名
  藤本崇人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] 敵対的生成ネットワークを用いた歌声合成の検討2019
- 著者名/発表者名
  法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] DNNに基づく感情音声合成のための敵対的学習の検討2019
- 著者名/発表者名
  角谷健太, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
[学会発表] Singing voice synthesis based on generative adversarial networks2019
- 著者名/発表者名
  Yukiya Hono, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] Singing Voice Conversion Using Posted Waveform Data on Music Social Media2018
- 著者名/発表者名
  Koki Senda, Yukiya Hono, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 国際学会
[学会発表] Recent Development of the DNN-based Singing Voice Synthesis System -- Sinsy2018
- 著者名/発表者名
  Yukiya Hono, Shumma Murata, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 国際学会
[学会発表] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition2018
- 著者名/発表者名
  Takato Fujimoto, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 国際学会
[学会発表] Speaker Adaptation for Speech Synthesis Based on Deep Neural Networks Using Hidden Semi-Markov Model Structures2018
- 著者名/発表者名
  Kento Nakao, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 国際学会
[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20182018
- 著者名/発表者名
  Kei Sawada, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2018 Workshop
- 国際学会
[学会発表] Statistical voice conversion based on WaveNet2018
- 著者名/発表者名
  Jumpei Niwa, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018
- 著者名/発表者名
  藤本崇人, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] Deep Neural Networkに基づく歌声合成システム -- Sinsy2018
- 著者名/発表者名
  法野行哉, 村田舜馬, 中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] Blizzard Challenge 2018のためのNITechテキスト音声合成システム2018
- 著者名/発表者名
  沢田慶, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
[学会発表] 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討2018
- 著者名/発表者名
  中尾健人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会

2018 年度 実施状況報告書

ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Mel-cepstrum-based quantization noise shaping applied to neural-network-based speech waveform synthesis2018

著者名/発表者名

雑誌名

DOI

[学会発表] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019

著者名/発表者名

学会等名

[学会発表] 日本語End-to-End音声合成における入力言語特徴量の影響2019

著者名/発表者名

学会等名

[学会発表] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019

著者名/発表者名

学会等名

[学会発表] 敵対的生成ネットワークを用いた歌声合成の検討2019

著者名/発表者名

学会等名

[学会発表] DNNに基づく感情音声合成のための敵対的学習の検討2019

著者名/発表者名

学会等名

[学会発表] Singing voice synthesis based on generative adversarial networks2019

著者名/発表者名

学会等名

[学会発表] Singing Voice Conversion Using Posted Waveform Data on Music Social Media2018

著者名/発表者名

学会等名

[学会発表] Recent Development of the DNN-based Singing Voice Synthesis System -- Sinsy2018

著者名/発表者名

学会等名

[学会発表] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition2018

著者名/発表者名

学会等名

[学会発表] Speaker Adaptation for Speech Synthesis Based on Deep Neural Networks Using Hidden Semi-Markov Model Structures2018

著者名/発表者名

学会等名

[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20182018

著者名/発表者名

学会等名

[学会発表] Statistical voice conversion based on WaveNet2018

著者名/発表者名

学会等名

[学会発表] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018

著者名/発表者名

学会等名

[学会発表] Deep Neural Networkに基づく歌声合成システム -- Sinsy2018

著者名/発表者名

学会等名

[学会発表] Blizzard Challenge 2018のためのNITechテキスト音声合成システム2018

著者名/発表者名

学会等名

[学会発表] 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)