2021 Fiscal Year Research-status Report
異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成
Project/Area Number |
20K11862
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 音声合成 / 音声情報処理 |
Outline of Annual Research Achievements |
本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。 本年度は、音声に含まれる言語・話者に依存する特徴を分離しながら音声合成用モデルを学習するために、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組んだ。エンコーダにおいて獲得した発話単位の潜在変数と言語依存層を用いた言語特徴量から、音響特徴量を復元するように学習を行うことで、発話単位に変動する話者情報を言語情報と分離しながら獲得する。さらに、デコーダの出力に対し、時間変動を考慮した学習の導入、フレーム単位の音響特徴量の識別器を用いた敵対的学習の導入を行った。MOS試験による主観評価実験の結果、学習データに含まれない言語・話者の組み合わせにおいて、提案法はより自然性の高い音声を生成することを示した。 さらに、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造として、話者を表す潜在変数と感情(発話スタイル)を表す潜在変数を導入した変分オートエンコーダに基づく音声合成手法を提案した。また、顔画像から話者の特徴を再現するための枠組みとして、変分オートエンコーダに基づく手法を提案した。こちらでは、顔画像から獲得した潜在変数が音声から獲得した話者の潜在変数と一致するような制約を導入することで、顔画像から話者(声質)の特徴を予測可能とし、音声情報を用いることなく声質を再現した合成音声の生成を実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、任意の言語・話者・感情の組み合わせの合成音声を生成可能とするために、言語・話者・感情それぞれに依存する特徴や言語・話者・感情に非依存な特徴を深層学習によって獲得するためのモデル構造、モデル学習法、補助特徴量に関する研究開発を並行して進めている。 本年度は、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組み、言語・話者・感情それぞれに依存する特徴を分離しながらモデル化するためのモデル構造、モデル学習法について検討を進めた。また、話速に注目し、言語・話者に依存した情報を分離しながら学習するためのモデル構造についても検討を進めた。評価実験の結果から、その有効性を示した。 さらに、話者と感情に注目し、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造を提案し、さらに、このモデル構造において適切なモデル学習法についても検討を進めた。補助特徴についても検討を進めており、顔画像と音声の変分オートエンコーダを同時に学習する際に、話者を表現する潜在変数と顔画像から得られる潜在変数が近づくような制約を導入することで、顔画像から話者の特徴(声質)を予測することが可能なモデルを提案した。 以上のことから、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、変分オートエンコーダに基づくモデル構造を提案し、さらに、時間変動を考慮したモデル学習、音響特徴量に対する識別器を用いた敵対的学習を導入し、主観評価実験によって有効性を示した。引き続き、言語・話者に依存する音声の特徴を適切に分離することが可能なモデル構造やモデル学習法の解明に取り組む。特に、異なる言語において話者の特徴をより適切に再現するためのモデル学習法について検討を進める。 また、異なる言語において話者・感情を再現するための補助特徴量としては、顔画像を利用したモデル構造についても検討を進める。本年度は顔画像と音声の変分オートエンコーダを同時に学習し、顔画像から得られる潜在変数と音声から得られる潜在変数が一致するような制約を導入したモデル学習法を提案した。実験結果から、顔画像からある程度の情報を獲得し、声質を予測可能であることを示したが、さらなる予測精度の改善を目指す。適切なモデル構造とモデル学習法について検討を進め、顔画像から話者の特徴を予測する精度を改善させる。
|
Causes of Carryover |
本年度は、新型コロナウイルスの影響もあり、旅費については当初予定から減額が生じたため、次年度使用額が生じた。次年度予算と合わせて深層学習用のGPU計算機の購入に使用する予定である。
|
Research Products
(8 results)