2018 Fiscal Year Research-status Report

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

Research Project

Project/Area Number	18K11163
Research Institution	Nagoya Institute of Technology
Principal Investigator	大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	信号処理 / ディープラーニング / 歌声合成 / 楽器音生成 / 音声合成
Outline of Annual Research Achievements	従来のデジタル信号処理理論は，音声関連の研究分野では最も根本的な考え方として広く普及しているが，このような変換・処理で取り扱える枠組みの中に制限されていたため，モデル構造に関する過度の制約による性能限界があった．このような状況にブレークスルーをもたらすため，近年急速に技術革新が進んでいる深層学習に基づいた，音声波形の直接モデル化を目指す． 2016年，ニューラルネットワークを用いて音声波形を直接モデル化する手法としてWaveNetが提案されたが，過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持つため，合成時に並列演算ができないことから，実時間で合成できない問題があった．また，補助特徴量として与えたピッチ情報とは異なるピッチの波形が生成されることがあった．2017年に提案されたParallel WaveNetでは，自己回帰構造を持たないため実時間で合成できるものの，指定のピッチを再現できない場合がある問題はいまだ残っている．これらの問題に対し，深層学習に基づいた音声波形の直接モデル化手法を新たに確立するための研究の一つとして本研究では明示的に周期信号と非周期信号の列を入力することで，対応する音声サンプルの列を一度に生成する手法を提案した．提案モデルを学習する際，画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで，音声波形と周期・非周期信号の相互変換の同時学習を行った．主観評価実験から，サイクル構造を持つ学習が合成歌声の品質を向上させることを示した．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 2016年に，自己回帰構造を持つ波形生成モデルであるWaveNetが提案された．メルケプストラムや対数F0などの音響特徴量を補助特徴量として用いることでWaveNetを音声ボコーダとして利用でき，近年の音声合成関連研究でしばしば利用されている．2017年には，WaveNetを教師モデルとして用い，自己回帰構造を持たない生徒モデルを学習することで，WaveNetと同等の品質の音声を高速に生成するモデルであるParallel WaveNetが提案された．生徒モデルは教師モデルと同じ構造を持つが，教師モデルと異なり，モデル自身が生成した過去の音声サンプル列ではなく，ノイズ系列を入力として音声サンプルを出力する．WaveNetやParallel WaveNetによる音声ボコーダは非常に品質の高い音声を合成することができるが，これらのモデルは明示的な周期信号を入力に持たないため，補助特徴量として与えたピッチ情報とは異なるピッチの音声波形が生成されることがある．そこで，ニューラルネットワークに基づく音声ボコーダにおいて，周期信号と非周期信号を入力とする音声生成の枠組みを提案した．提案モデルでは明示的なピッチ情報を入力するため，入力として周期信号と非周期信号の2チャンネルを用いる．合成時，WaveNetでは出力した離散確率分布に基づいてサンプリングすることでμ-lawのクラスを選択するが，提案モデルでは入力に非周期信号を用いるため出力にも非周期性が現れることを期待し，最も確率が高いクラスを選択する．提案モデルを学習する際，画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで，音声波形と周期・非周期信号の相互変換の同時学習を行う．主観評価実験から，サイクル構造を持つ学習が合成歌声の品質を向上させることを示した．
Strategy for Future Research Activity	平成30年度は，特徴パラメータの列から波形を予測する枠組みを提案した．平成31年度はこの枠組みの改良を進めるだけでなく，これまで分解されていたモデル構造を単一の枠組みでモデル化すること(end-to-end)が可能になってきたことから，DNNに基づく歌声・楽器音の合成システムにおけるend-to-endの構造の模索も進める．
Causes of Carryover	当初の計画と比較して，実験よりもアルゴリズムの設計を主軸にしたため，次年度使用額が生じた．アルゴリズム設計の結果，想定したよりも多くの計算資源が必要なことが判明したため，２０１９年度の助成金は主に計算資源に充てる．

Research Products
(10 results)

All 2019 2018

All Presentation (10 results) (of which Int'l Joint Research: 6 results)

[Presentation] Speaker-dependent WaveNet-based delay-free adpcm speech coding2019
- Author(s)
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2019
- Int'l Joint Research
[Presentation] Singing voice synthesis based on generative adversarial networks2019
- Author(s)
  Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2019
- Int'l Joint Research
[Presentation] 周期・非周期信号から駆動するディープニューラルネットに基づく音声ボコーダ2019
- Author(s)
  大浦圭一郎，中村和寛，橋本佳，南角吉彦，徳田恵一
- Organizer
  日本音響学会春季研究発表会
[Presentation] 敵対的ネットワークを用いた歌声合成の検討2019
- Author(s)
  法野行哉，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  日本音響学会春季研究発表会
[Presentation] Singing voice conversion using posted waveform data on music social media2018
- Author(s)
  Koki Senda, Yukiya Hono, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  APSIPA 2018
- Int'l Joint Research
[Presentation] Recent development of the DNN-based singing voice synthesis system - sinsy2018
- Author(s)
  Yukiya Hono, Shumma Murata, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  APSIPA 2018
- Int'l Joint Research
[Presentation] Speech synthesis using WaveNet vocoder based on periodic/aperiodic decomposition2018
- Author(s)
  Takahto Fujimoto, Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  APSIPA 2018
- Int'l Joint Research
[Presentation] WaveNet-based zero-delay lossless speech coding2018
- Author(s)
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  SLT 2018
- Int'l Joint Research
[Presentation] Deep neural networkに基づく歌声合成システム - Sinsy2018
- Author(s)
  法野行哉，村田舜馬，中村和寛，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  日本音響学会秋季研究発表会
[Presentation] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018
- Author(s)
  藤本崇人，吉村建慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  日本音響学会秋季研究発表会

2018 Fiscal Year Research-status Report

深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用

Principal Investigator

大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)

Current Status of Research Progress

Reason

Research Products

[Presentation] Speaker-dependent WaveNet-based delay-free adpcm speech coding2019

Author(s)

Organizer

[Presentation] Singing voice synthesis based on generative adversarial networks2019

Author(s)

Organizer

[Presentation] 周期・非周期信号から駆動するディープニューラルネットに基づく音声ボコーダ2019

Author(s)

Organizer

[Presentation] 敵対的ネットワークを用いた歌声合成の検討2019

Author(s)

Organizer

[Presentation] Singing voice conversion using posted waveform data on music social media2018

Author(s)

Organizer

[Presentation] Recent development of the DNN-based singing voice synthesis system - sinsy2018

Author(s)

Organizer

[Presentation] Speech synthesis using WaveNet vocoder based on periodic/aperiodic decomposition2018

Author(s)

Organizer

[Presentation] WaveNet-based zero-delay lossless speech coding2018

Author(s)

Organizer

[Presentation] Deep neural networkに基づく歌声合成システム - Sinsy2018

Author(s)

Organizer

[Presentation] 周期・非周期成分の分離に基づくWaveNetボコーダを用いた音声合成2018

Author(s)

Organizer

大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)