2018 Fiscal Year Research-status Report
深層学習に基づいた新しい信号処理技術の確立と歌声および楽器音生成への応用
Project/Area Number |
18K11163
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 信号処理 / ディープラーニング / 歌声合成 / 楽器音生成 / 音声合成 |
Outline of Annual Research Achievements |
従来のデジタル信号処理理論は,音声関連の研究分野では最も根本的な考え方として広く普及しているが,このような変換・処理で取り扱える枠組みの中に制限されていたため,モデル構造に関する過度の制約による性能限界があった.このような状況にブレークスルーをもたらすため,近年急速に技術革新が進んでいる深層学習に基づいた,音声波形の直接モデル化を目指す. 2016年,ニューラルネットワークを用いて音声波形を直接モデル化する手法としてWaveNetが提案されたが,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持つため,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,補助特徴量として与えたピッチ情報とは異なるピッチの波形が生成されることがあった.2017年に提案されたParallel WaveNetでは,自己回帰構造を持たないため実時間で合成できるものの,指定のピッチを再現できない場合がある問題はいまだ残っている. これらの問題に対し,深層学習に基づいた音声波形の直接モデル化手法を新たに確立するための研究の一つとして本研究では明示的に周期信号と非周期信号の列を入力することで,対応する音声サンプルの列を一度に生成する手法を提案した.提案モデルを学習する際,画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで,音声波形と周期・非周期信号の相互変換の同時学習を行った.主観評価実験から,サイクル構造を持つ学習が合成歌声の品質を向上させることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2016年に,自己回帰構造を持つ波形生成モデルであるWaveNetが提案された.メルケプストラムや対数F0などの音響特徴量を補助特徴量として用いることでWaveNetを音声ボコーダとして利用でき,近年の音声合成関連研究でしばしば利用されている.2017年には,WaveNetを教師モデルとして用い,自己回帰構造を持たない生徒モデルを学習することで,WaveNetと同等の品質の音声を高速に生成するモデルであるParallel WaveNetが提案された.生徒モデルは教師モデルと同じ構造を持つが,教師モデルと異なり,モデル自身が生成した過去の音声サンプル列ではなく,ノイズ系列を入力として音声サンプルを出力する.WaveNetやParallel WaveNetによる音声ボコーダは非常に品質の高い音声を合成することができるが,これらのモデルは明示的な周期信号を入力に持たないため,補助特徴量として与えたピッチ情報とは異なるピッチの音声波形が生成されることがある.そこで,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案した.提案モデルでは明示的なピッチ情報を入力するため,入力として周期信号と非周期信号の2チャンネルを用いる.合成時,WaveNetでは出力した離散確率分布に基づいてサンプリングすることでμ-lawのクラスを選択するが,提案モデルでは入力に非周期信号を用いるため出力にも非周期性が現れることを期待し,最も確率が高いクラスを選択する.提案モデルを学習する際,画像変換の分野で高い性能を示しているCycleGANのサイクル構造を応用することで,音声波形と周期・非周期信号の相互変換の同時学習を行う.主観評価実験から,サイクル構造を持つ学習が合成歌声の品質を向上させることを示した.
|
Strategy for Future Research Activity |
平成30年度は,特徴パラメータの列から波形を予測する枠組みを提案した.平成31年度はこの枠組みの改良を進めるだけでなく,これまで分解されていたモデル構造を単一の枠組みでモデル化すること(end-to-end)が可能になってきたことから,DNNに基づく歌声・楽器音の合成システムにおけるend-to-endの構造の模索も進める.
|
Causes of Carryover |
当初の計画と比較して,実験よりもアルゴリズムの設計を主軸にしたため,次年度使用額が生じた.アルゴリズム設計の結果,想定したよりも多くの計算資源が必要なことが判明したため,2019年度の助成金は主に計算資源に充てる.
|
Research Products
(10 results)