本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。 本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、変分オートエンコーダに基づく多言語音声合成モデルにおける循環構造を導入したモデル学習法を提案した。循環構造を導入することで、言語に依存しない話者の情報が抽出可能となった。また、顔画像から話者の特徴を再現するために、顔画像と音声の間の共通潜在変数を導入した顔画像と音声の同時モデル化を提案した。顔画像と音声の間の共通潜在変数を持つことで、顔画像に固有の特徴と、顔画像と音声の間で共有される特徴をモデル化することが可能となった。 研究期間全体を通して、本研究では入力音声の言語・話者・感情それぞれに依存する音声の特徴を分離可能とする多言語音声合成モデルの学習に取り組んできた。特に、言語と話者の特徴を分離するために、変分オートエンコーダに基づく多言語音声合成モデルの学習において敵対的学習の導入や循環構造の導入による言語に依存しない話者特徴を抽出するモデル学習法を提案してきた。さらに、補助特徴として顔画像を利用することを提案し、顔画像から話者の声質を予測可能なモデル構造を提案した。提案法によって、入力音声と異なる言語において話者の特徴が再現された音声の生成が実現され、より自然なグローバルコミュニケーションの実現が期待される。
|