2018 年度実施状況報告書

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

研究課題

研究課題/領域番号	18K11163
研究機関	名古屋工業大学
研究代表者	大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	信号処理 / ディープラーニング / 歌声合成 / 楽器音生成 / 音声合成
研究実績の概要	従来のデジタル信号処理理論は，音声関連の研究分野では最も根本的な考え方として広く普及しているが，このような変換・処理で取り扱える枠組みの中に制限されていたため，モデル構造に関する過度の制約による性能限界があった．このような状況にブレークスルーをもたらすため，近年急速に技術革新が進んでいる深層学習に基づいた，音声波形の直接モデル化を目指す． 2016年，ニューラルネットワークを用いて音声波形を直接モデル化する手法としてWaveNetが提案されたが，過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持つため，合成時に並列演算ができないことから，実時間で合成できない問題があった．また，補助特徴量として与えたピッチ情報とは異なるピッチの波形が生成されることがあった．2017年に提案されたParallel WaveNetでは，自己回帰構造を持たないため実時間で合成できるものの，指定のピッチを再現できない場合がある問題はいまだ残っている．これらの問題に対し，深層学習に基づいた音声波形の直接モデル化手法を新たに確立するための研究の一つとして本研究では明示的に周期信号と非周期信号の列を入力することで，対応する音声サンプルの列を一度に生成する手法を提案した．提案モデルを学習する際，画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで，音声波形と周期・非周期信号の相互変換の同時学習を行った．主観評価実験から，サイクル構造を持つ学習が合成歌声の品質を向上させることを示した．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由 2016年に，自己回帰構造を持つ波形生成モデルであるWaveNetが提案された．メルケプストラムや対数F0などの音響特徴量を補助特徴量として用いることでWaveNetを音声ボコーダとして利用でき，近年の音声合成関連研究でしばしば利用されている．2017年には，WaveNetを教師モデルとして用い，自己回帰構造を持たない生徒モデルを学習することで，WaveNetと同等の品質の音声を高速に生成するモデルであるParallel WaveNetが提案された．生徒モデルは教師モデルと同じ構造を持つが，教師モデルと異なり，モデル自身が生成した過去の音声サンプル列ではなく，ノイズ系列を入力として音声サンプルを出力する．WaveNetやParallel WaveNetによる音声ボコーダは非常に品質の高い音声を合成することができるが，これらのモデルは明示的な周期信号を入力に持たないため，補助特徴量として与えたピッチ情報とは異なるピッチの音声波形が生成されることがある．そこで，ニューラルネットワークに基づく音声ボコーダにおいて，周期信号と非周期信号を入力とする音声生成の枠組みを提案した．提案モデルでは明示的なピッチ情報を入力するため，入力として周期信号と非周期信号の2チャンネルを用いる．合成時，WaveNetでは出力した離散確率分布に基づいてサンプリングすることでμ-lawのクラスを選択するが，提案モデルでは入力に非周期信号を用いるため出力にも非周期性が現れることを期待し，最も確率が高いクラスを選択する．提案モデルを学習する際，画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで，音声波形と周期・非周期信号の相互変換の同時学習を行う．主観評価実験から，サイクル構造を持つ学習が合成歌声の品質を向上させることを示した．
今後の研究の推進方策	平成30年度は，特徴パラメータの列から波形を予測する枠組みを提案した．平成31年度はこの枠組みの改良を進めるだけでなく，これまで分解されていたモデル構造を単一の枠組みでモデル化すること(end-to-end)が可能になってきたことから，DNNに基づく歌声・楽器音の合成システムにおけるend-to-endの構造の模索も進める．
次年度使用額が生じた理由	当初の計画と比較して，実験よりもアルゴリズムの設計を主軸にしたため，次年度使用額が生じた．アルゴリズム設計の結果，想定したよりも多くの計算資源が必要なことが判明したため，２０１９年度の助成金は主に計算資源に充てる．

研究成果
(10件)

すべて 2019 2018

すべて学会発表 (10件) (うち国際学会 6件)

[学会発表] Speaker-dependent WaveNet-based delay-free adpcm speech coding2019
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2019
- 国際学会
[学会発表] Singing voice synthesis based on generative adversarial networks2019
- 著者名/発表者名
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2019
- 国際学会
[学会発表] 周期・非周期信号から駆動するディープニューラルネットに基づく音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎，中村和寛，橋本佳，南角吉彦，徳田恵一
- 学会等名
  日本音響学会春季研究発表会
[学会発表] 敵対的ネットワークを用いた歌声合成の検討2019
- 著者名/発表者名
  法野行哉，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  日本音響学会春季研究発表会
[学会発表] Singing voice conversion using posted waveform data on music social media2018
- 著者名/発表者名
  Koki Senda, Yukiya Hono, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  APSIPA 2018
- 国際学会
[学会発表] Recent development of the DNN-based singing voice synthesis system - sinsy2018
- 著者名/発表者名
  Yukiya Hono, Shumma Murata, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  APSIPA 2018
- 国際学会
[学会発表] Speech synthesis using WaveNet vocoder based on periodic/aperiodic decomposition2018
- 著者名/発表者名
  Takahto Fujimoto, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  APSIPA 2018
- 国際学会
[学会発表] WaveNet-based zero-delay lossless speech coding2018
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  SLT 2018
- 国際学会
[学会発表] Deep neural networkに基づく歌声合成システム - Sinsy2018
- 著者名/発表者名
  法野行哉，村田舜馬，中村和寛，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  日本音響学会秋季研究発表会
[学会発表] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018
- 著者名/発表者名
  藤本崇人，吉村建慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  日本音響学会秋季研究発表会

2018 年度 実施状況報告書

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

研究代表者

大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Speaker-dependent WaveNet-based delay-free adpcm speech coding2019

著者名/発表者名

学会等名

[学会発表] Singing voice synthesis based on generative adversarial networks2019

著者名/発表者名

学会等名

[学会発表] 周期・非周期信号から駆動するディープニューラルネットに基づく音声ボコーダ2019

著者名/発表者名

学会等名

[学会発表] 敵対的ネットワークを用いた歌声合成の検討2019

著者名/発表者名

学会等名

[学会発表] Singing voice conversion using posted waveform data on music social media2018

著者名/発表者名

学会等名

[学会発表] Recent development of the DNN-based singing voice synthesis system - sinsy2018

著者名/発表者名

学会等名

[学会発表] Speech synthesis using WaveNet vocoder based on periodic/aperiodic decomposition2018

著者名/発表者名

学会等名

[学会発表] WaveNet-based zero-delay lossless speech coding2018

著者名/発表者名

学会等名

[学会発表] Deep neural networkに基づく歌声合成システム - Sinsy2018

著者名/発表者名

学会等名

[学会発表] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)