話者適応は音声合成を応用した声のデジタルクローン技術である。本研究は音声合成用途以外の劣環境で収録された音声を対象とすべく、必要な要素技術を新たに提案し、データベースも構築した。まず低品質音声と元の高品質音声が対となったパラレルデータベースDR-VCTKを構築した。そしてテキストデータが付随しない音声信号からでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットを提案した。さらに劣環境下の音声を元に学習した話者エンコーダを組み込んだ新たなニューラルネットワークも提案し、教師なし話者適応を劣環境下の音声からでも行えることを示した。
|