未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を,時系列のモデル化が必要な音声合成に応用する手法として,リカレント構造やself-attention構造,sequence-to-sequence構造を持つDGPを提案した.提案手法は同様の構造を持つDNN音声合成より高品質な音声を合成できる傾向があることを示した.本研究課題の成果によって,ニューラルネットワークに用いられる様々な構造がDGPでも実現可能であり,ベイズの特徴を用いた頑健な深層学習ができることを示した.
|