ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究課題

研究課題/領域番号	17K20004
研究種目	挑戦的研究(萌芽)
配分区分	基金
研究分野	人間情報学およびその関連分野
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究期間 (年度)	2017-06-30 – 2020-03-31
研究課題ステータス	完了 (2019年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2018年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円) 2017年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	音声合成 / 音声情報処理 / ニューラルネットワーク / 調音モデル
研究成果の概要	あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、人間の発声機構に則した調音モデルをディープニューラルネットワークに基づいたテキスト音声合成システムに組み込んだシステムを実現した。音声品質の改善のため、WaveNetを始めとするディープニューラルネットワークに基づいた音声波形生成手法との融合を図った。さらに、敵対的学習法に基づいて合成音声の声質や感情の制御する方法の検討を行った。
研究成果の学術的意義や社会的意義	スマートフォン、スマートスピーカー等、高度な情報機器が急速に普及しつつある中で、これらの情報機器と人間との間の情報交換の方法として音声インタフェースに期待がかかっている。これらの機械と自然な会話を行うためには、出力される合成音声は自在にあらゆる声質の音声を出力し、また、様々な感情表現を行うことが必須である。本研究はこのような人間のようにしゃべる機械の実現に貢献するものである。

報告書

(4件)

研究成果
(43件)

すべて 2020 2019 2018 2017 その他

すべて国際共同研究 (1件) 雑誌論文 (3件) (うち国際共著 1件、査読あり 3件、オープンアクセス 1件) 学会発表 (39件) (うち国際学会 15件、招待講演 2件)

[国際共同研究] University of York(英国)
- 関連する報告書
  2017 実施状況報告書
[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020
- 著者名/発表者名
  Wang Xin、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 402-415
- DOI
  10.1109/taslp.2019.2956145
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] A vector quantized variational autoencoder (VQ-VAE) autoregressive neural F0 model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi, Simon King, and Keiichi Tokuda
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 28 ページ: 157-170
- DOI
  10.1109/taslp.2019.2950099
- 関連する報告書
  2019 実績報告書
- 査読あり / 国際共著
[雑誌論文] Mel-cepstrum-based quantization noise shaping applied to neural-network-based speech waveform synthesis2018
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 26 号: 7 ページ: 1173-1180
- DOI
  10.1109/taslp.2018.2818408
- 関連する報告書
  2018 実施状況報告書
- 査読あり
[学会発表] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020
- 著者名/発表者名
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年春季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019
- 著者名/発表者名
  村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] Singing voice synthesis based on generative adversarial networks2019
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  情報処理学会研究報告
- 関連する報告書
  2019 実績報告書
[学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] Statistical approach to speech synthesis: past, present and future2019
- 著者名/発表者名
  Keiichi Tokuda
- 学会等名
  Interspeech 2019
- 関連する報告書
  2019 実績報告書
- 国際学会 / 招待講演
[学会発表] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019
- 著者名/発表者名
  Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019
- 著者名/発表者名
  Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] 統計的音声合成の進展と展望2019
- 著者名/発表者名
  徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2019 実績報告書
- 招待講演
[学会発表] 歌声合成におけるニューラルボコーダの比較検討2019
- 著者名/発表者名
  和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2019 実績報告書
[学会発表] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019
- 著者名/発表者名
  島田基樹, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] 日本語End-to-End音声合成における入力言語特徴量の影響2019
- 著者名/発表者名
  藤本崇人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] 敵対的生成ネットワークを用いた歌声合成の検討2019
- 著者名/発表者名
  法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] DNNに基づく感情音声合成のための敵対的学習の検討2019
- 著者名/発表者名
  角谷健太, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] Singing voice synthesis based on generative adversarial networks2019
- 著者名/発表者名
  Yukiya Hono, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Singing Voice Conversion Using Posted Waveform Data on Music Social Media2018
- 著者名/発表者名
  Koki Senda, Yukiya Hono, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Recent Development of the DNN-based Singing Voice Synthesis System -- Sinsy2018
- 著者名/発表者名
  Yukiya Hono, Shumma Murata, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition2018
- 著者名/発表者名
  Takato Fujimoto, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Speaker Adaptation for Speech Synthesis Based on Deep Neural Networks Using Hidden Semi-Markov Model Structures2018
- 著者名/発表者名
  Kento Nakao, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2018)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20182018
- 著者名/発表者名
  Kei Sawada, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2018 Workshop
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] Statistical voice conversion based on WaveNet2018
- 著者名/発表者名
  Jumpei Niwa, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  2018 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 関連する報告書
  2018 実施状況報告書
- 国際学会
[学会発表] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018
- 著者名/発表者名
  藤本崇人, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] Deep Neural Networkに基づく歌声合成システム -- Sinsy2018
- 著者名/発表者名
  法野行哉, 村田舜馬, 中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] Blizzard Challenge 2018のためのNITechテキスト音声合成システム2018
- 著者名/発表者名
  沢田慶, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年秋季研究発表会
- 関連する報告書
  2018 実施状況報告書
[学会発表] 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討2018
- 著者名/発表者名
  中尾健人, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2018 実施状況報告書
[学会発表] DNN音声合成のためのパワーを考慮したトラジェクトリ学習2018
- 著者名/発表者名
  船戸涼平, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2017 実施状況報告書
[学会発表] メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用2018
- 著者名/発表者名
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2017 実施状況報告書
[学会発表] WaveNetに基づく声質変換の検討2018
- 著者名/発表者名
  丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
- 関連する報告書
  2017 実施状況報告書
[学会発表] Blizzard Machine Learning Challenge 2017の概要2018
- 著者名/発表者名
  沢田慶, 徳田恵一, Simon King, Alan W Black
- 学会等名
  日本音響学会2018年春季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] 隠れセミマルコフモデルの構造を利用したニューラルネットワークに基づく歌声合成2018
- 著者名/発表者名
  法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年春季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] DNNに基づく発声タイミングモデルを利用した歌声合成2018
- 著者名/発表者名
  村田舜馬, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年春季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] WaveNetにおけるメルケプストラムに基づくノイズシェーピング量子化法の適用2017
- 著者名/発表者名
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] WaveNet-based voice conversion2017
- 著者名/発表者名
  丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] Blizzard Challenge 2017のためのNITechテキスト音声合成システム2017
- 著者名/発表者名
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
- 関連する報告書
  2017 実施状況報告書
[学会発表] Articulatory text-to-speech synthesis using the digital waveguide mesh driven by a deep neural network2017
- 著者名/発表者名
  Amelia J. Gully, Takenori Yoshimura, Damian T. Murphy, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  INTERSPEECH 2017
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20172017
- 著者名/発表者名
  Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2017 Workshop
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] The Blizzard Machine Learning Challenge 20172017
- 著者名/発表者名
  Kei Sawada, Keiichi Tokuda, Simon King, and Alan W Black
- 学会等名
  2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
- 関連する報告書
  2017 実施状況報告書
- 国際学会

ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)

報告書

研究成果

[国際共同研究] University of York(英国)

関連する報告書

[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] A vector quantized variational autoencoder (VQ-VAE) autoregressive neural F0 model for statistical parametric speech synthesis2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Mel-cepstrum-based quantization noise shaping applied to neural-network-based speech waveform synthesis2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Singing voice synthesis based on generative adversarial networks2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Statistical approach to speech synthesis: past, present and future2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 統計的音声合成の進展と展望2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歌声合成におけるニューラルボコーダの比較検討2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 隠れセミマルコフモデルの構造を用いたDNNに基づく音声合成における計算量削減手法の検討2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語End-to-End音声合成における入力言語特徴量の影響2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 周期・非周期信号から駆動するディープニューラルネットワークに基づく音声ボコーダ2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 敵対的生成ネットワークを用いた歌声合成の検討2019

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)