2020 Fiscal Year Research-status Report
異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成
Project/Area Number |
20K11862
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 音声合成 / 音声情報処理 |
Outline of Annual Research Achievements |
本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。 本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入した。話者非依存層はすべての言語・話者において共有されており、この層を導入することで、複数の言語に共通する話者に非依存な中間表現を獲得する。話者非依存層を導入することで、話者非依存の特徴と話者依存の特徴が明確となり、異なる言語において入力音声の話者を再現することが可能となった。MOS試験による主観評価実験の結果、話者非依存層を導入することで合成音声の自然性に関するスコアを改善し、提案法の有効性を示した。 また、言語・話者に依存しない中間表現を獲得するために、話者非依存層から出力される中間表現に対し、話者識別器を用いた敵対的学習を適用することで、より話者非依存な特徴表現を獲得することを目指した。MOS試験による主観評価実験の結果、敵対的学習を導入することでスコアは改善されなかった。これは、話者非依存層を導入することで話者非依存な特徴をある程度獲得することができており、話者識別器を用いた敵対的学習の効果が小さかったことや、敵対的学習によって話者以外の情報についても中間表現から取り除かれてしまったことが考えられる。 この他、話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造についての検討や、顔画像から話者を再現するための枠組みについて検討を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、任意の言語・話者・感情の組み合わせの合成音声を生成可能とするために、言語・話者・感情それぞれに依存する特徴や言語・話者・感情に非依存な特徴を深層学習によって獲得するために、モデル構造、モデル学習法、補助特徴量に関する研究開発を並行して進めることとした。本年度は言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入し、主観評価実験による評価を行った。また、話者非依存層から出力される中間表現に対し、話者識別器を用いた敵対的学習を適用し、主観評価実験による評価を行った。さらに、話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造についての検討や、顔画像から話者を再現するための枠組みについて検討を進めている。以上のことから、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、言語依存層・話者非依存層・話者依存層から構成されるモデル構造を導入し、その有効性を示した。引き続き、言語・話者・感情に依存する音声の特徴を分離することが可能なモデル構造の解明に取り組む。言語・話者に依存しない中間表現を獲得するための敵対的学習については、本年度は、その有効性については確認できなかった。導入する識別器の構造や対象について引き続き検討を進め、異なる話者において話者・感情を再現するためのモデル学習法の解明に取り組む。また、生成器の出力に対し敵対的学習を導入することで出力音声の話者・感情を再現する手法についても有効性の検証をする。異なる言語において話者・感情を再現するための補助特徴量としては、まず、顔画像を利用する。音声と対応づいていない顔画像データを用いた半教師あり学習について検討を進める。
|
Causes of Carryover |
本年度は、新型コロナウイルスの影響もあり、旅費については当初予定から減額が生じたため、次年度使用額が生じた。また、物品の購入を予定していたが、既存の物を有効活用することで、本年度購入する必要がなくなったため、次年度使用額が生じた。次年度予算と合わせてモデル学習用GPU計算機の購入に使用する予定である。
|
Research Products
(12 results)