研究実績の概要 |
未知のデータに頑健なモデルして提案されている深層ガウス過程(Deep Gaussian process, DGP)を、時系列のモデル化が必要な音声合成に応用する手法を考案するのが、本研究課題の目的である。これまでは、ニューラルネットワークで広く用いられるリカレント構造がDGPにおいても有効であることを示していた。 本年度は、言語・音声に対するニューラルネットワークの時系列モデルで広く使用されている構造である、sequence-to-sequence構造およびself-attention構造に対して、DGP音声合成への応用を行い実験的に構造の有効性を示した。 Sequence-to-sequence構造は近年の仮名などシンプルな特徴を入力から音声を出力するEnd-to-end音声合成において重要な構造であり、文字と音声といった系列長が異なる2種類の系列の変換を行う構造である。本研究ではFastSpeech型のsequence-to-sequence構造で用いられる音素毎の特徴量を伸張するlength regulatorをDGPを用いて実現した。これによってシンプルな入力でもDGP音声合成で自然性の高い音声を生成できることを示した。 また、リカレント構造は音声の滑らかな変化をモデル化するには効果的だったが、音素のような離散的な特徴を捉えるには不十分であった。そこで、本研究では言語モデルで広く用いられるself-attentionをDGPで表現する手法を検討した。具体的には、self-attentionの線形変換をガウス過程回帰に置き換える処理を行うことによって、self-attentionと同様の機能が得られることを示した。 本研究によって、ニューラルネットワークに用いられる様々な構造がDGPでも実現可能であり、ベイズの特徴を用いた頑健な深層学習ができることを示した。
|