2017 年度実施状況報告書

ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究課題

研究課題/領域番号	17K20004
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
研究期間 (年度)	2017-06-30 – 2020-03-31
キーワード	音声合成 / 音声情報処理
研究実績の概要	本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。当該年度では、ディープニューラルネットワークの枠組みの中で２次元ディジタル・ウェーブガイド・メッシュ調音モデルを定式化し、調音モデルをテキスト音声合成システムに組み込むアイディアを数式として表現した。このような研究は他に例がなく、音声合成の研究を次の段階に推し進めるための１つの試みであると言える。さらに、申請者らは、導出した数式をもとに調音モデルを組み込んだテキスト音声合成システムを構築することに成功した。生成された音声のフォルマント周波数やスペクトルの大域的な構造は人間の発声のものと類似しており、明瞭な音声が合成できることを確認した。また、実際に獲得された調音モデルの形状や時間的な変化を観測することにより、今後の研究を進めていく上で重要な知見を獲得することができた。観測された音声波形から直接調音モデルを推定することは、不良設定問題である。しかし、本研究ではニューラルネットワークを不良設定問題の正則化として利用することによって、これまで解くことが困難であった調音モデルの逆推定の問題を解決できる可能性を示した。これまでに得られた成果は、論文にまとめて、音声関連の最重要国際会議の１つであるInterspeechに投稿した。現地で発表を行い、音声関連の多くの研究者と意見交換を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本研究では３年間の研究機関を想定している。平成29年度の課題としては、音声波形から調音モデルを逆推定することの実現可能性の検証を挙げていた。申請者らは、調音モデルを組み込んだテキスト音声合成システムを実際に構築することで、調音モデルの逆推定の実現可能性を示した。これは、平成30年度の課題として設定していた「調音モデルの学習方法の確立」の一部を含んでおり、進捗状況としては、当初の計画以上に進展しているものと言える。
今後の研究の推進方策	当該年度では、当初の計画以上に研究を進展させることができた。しかし、音声波形から調音モデルを逆推定するための実現可能性の検証を重視していたため、これまでシンプルなモデル構造を仮定していた。このため、調音モデルを組み込んだテキスト音声合成システムから生成される音声の品質には改善の余地があった。そこで、今後は研究をさらに発展させて合成音声の品質の向上を目指す。具体的には、WaveNetを始めとする最新の音声波形生成手法との融合を検討する。最新の音声波形生成手法では、音声波形の長期に渡る依存関係を捉えられるような特殊な構造を持ったモデルを採用している。そのようなモデル構造を本研究で提案するモデルに導入することで、より自然な音声を生成できると考えられる。また、従来のテキスト音声合成システムにおいて広く利用されている動的特徴の導入も検討する。動的特徴を考慮することで、時間方向になめらかなパラメータ系列を生成できることが、これまでの実験から分かっている。調音モデルにおいても、動的特徴によって声道形状の時間的な連続性を捉えることができれば、より実際の人間の声道形状に則した調音モデルを推定できることが期待される。更に、合成音声の声質や感情の制御の検討を行う。これまで申請者らは、音声合成のワークショップであるBlizzard Challengeに参加することで、オーディオブックを用いて表現豊かな音声を合成可能なテキスト音声合成システムを構築するための枠組みを確立してきた。オーディオブックは絵本などを朗読した音声コンテンツであり、様々な登場人物が感情豊かに話す音声が含まれていることが特徴である。申請者らがこれまで獲得された知見を利用することで、声質や感情を制御可能な調音モデルに基づくテキスト音声合成システムの構築を目指す。
次年度使用額が生じた理由	物品の購入を予定していたが、既存のものを有効活用することで今年度購入する必要がなくなったため、次年度使用額が生じた。次年度予算と合わせてモデル学習用GPU計算機の購入に使用する。

研究成果
(13件)

すべて 2018 2017 その他

すべて国際共同研究 (1件) 学会発表 (12件) (うち国際学会 3件)

[国際共同研究] University of York(英国)
- 国名
  英国
- 外国機関名
  University of York
[学会発表] DNN音声合成のためのパワーを考慮したトラジェクトリ学習2018
- 著者名/発表者名
  船戸涼平, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
[学会発表] メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用2018
- 著者名/発表者名
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
[学会発表] WaveNetに基づく声質変換の検討2018
- 著者名/発表者名
  丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
[学会発表] Blizzard Machine Learning Challenge 2017の概要2018
- 著者名/発表者名
  沢田慶, 徳田恵一, Simon King, Alan W Black
- 学会等名
  日本音響学会2018年春季研究発表会
[学会発表] 隠れセミマルコフモデルの構造を利用したニューラルネットワークに基づく歌声合成2018
- 著者名/発表者名
  法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年春季研究発表会
[学会発表] DNNに基づく発声タイミングモデルを利用した歌声合成2018
- 著者名/発表者名
  村田舜馬, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2018年春季研究発表会
[学会発表] WaveNetにおけるメルケプストラムに基づくノイズシェーピング量子化法の適用2017
- 著者名/発表者名
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
[学会発表] WaveNet-based voice conversion2017
- 著者名/発表者名
  丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
[学会発表] Blizzard Challenge 2017のためのNITechテキスト音声合成システム2017
- 著者名/発表者名
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2017年秋季研究発表会
[学会発表] Articulatory text-to-speech synthesis using the digital waveguide mesh driven by a deep neural network2017
- 著者名/発表者名
  Amelia J. Gully, Takenori Yoshimura, Damian T. Murphy, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  INTERSPEECH 2017
- 国際学会
[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20172017
- 著者名/発表者名
  Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2017 Workshop
- 国際学会
[学会発表] The Blizzard Machine Learning Challenge 20172017
- 著者名/発表者名
  Kei Sawada, Keiichi Tokuda, Simon King, and Alan W Black
- 学会等名
  2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
- 国際学会

2017 年度 実施状況報告書

ディープニューラルネットワークにより学習可能な調音モデルに基づいた音声合成

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] University of York(英国)

国名

外国機関名

[学会発表] DNN音声合成のためのパワーを考慮したトラジェクトリ学習2018

著者名/発表者名

学会等名

[学会発表] メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用2018

著者名/発表者名

学会等名

[学会発表] WaveNetに基づく声質変換の検討2018

著者名/発表者名

学会等名

[学会発表] Blizzard Machine Learning Challenge 2017の概要2018

著者名/発表者名

学会等名

[学会発表] 隠れセミマルコフモデルの構造を利用したニューラルネットワークに基づく歌声合成2018

著者名/発表者名

学会等名

[学会発表] DNNに基づく発声タイミングモデルを利用した歌声合成2018

著者名/発表者名

学会等名

[学会発表] WaveNetにおけるメルケプストラムに基づくノイズシェーピング量子化法の適用2017

著者名/発表者名

学会等名

[学会発表] WaveNet-based voice conversion2017

著者名/発表者名

学会等名

[学会発表] Blizzard Challenge 2017のためのNITechテキスト音声合成システム2017

著者名/発表者名

学会等名

[学会発表] Articulatory text-to-speech synthesis using the digital waveguide mesh driven by a deep neural network2017

著者名/発表者名

学会等名

[学会発表] The NITech text-to-speech system for the Blizzard Challenge 20172017

著者名/発表者名

学会等名

[学会発表] The Blizzard Machine Learning Challenge 20172017

著者名/発表者名

学会等名

2017 年度実施状況報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)