2021 Fiscal Year Research-status Report

Sustainably Developable Speech Synthesis Based on Continual Learning

Research Project

Project/Area Number	21K21305
Research Institution	The University of Tokyo
Principal Investigator	齋藤佑樹東京大学, 大学院情報理工学系研究科, 特任助教 (20907901)
Project Period (FY)	2021-08-30 – 2023-03-31
Keywords	音声合成 / 深層学習 / Continual Learning
Outline of Annual Research Achievements	(1) 単一話者の多ドメイン音声合成のためのContinual Learningの検討：近年広く用いられている音声合成モデルであるFastSpeech2ベースの音声合成において，単一話者の多様なドメインのテキスト読み上げ音声が逐次的に与えられるContinual Learningを想定した実験を実施した．結果から，(1)破滅的忘却の影響は，合成音声の韻律・スペクトル包絡特徴量の予測において特に顕著であること，(2)リハーサル法が破滅的忘却に起因する合成音声の品質劣化を緩和させることを示した．本研究成果は，日本音響学会 2021年秋季研究発表会で公表した． (2) (1)の内容を多話者音声合成に拡張するための予備検討として，学習データに含まれる既知話者の音声特徴量の分布と，学習データに含まれない（既知話者の特徴を補間して得られる）未知話者の音声特徴量の分布を近づけるような制約を考慮した敵対的学習により，未知話者の高品質な音声を合成できる技術を提案した．実験的評価の結果から，提案技術が合成音声の話者類似性と，話者モーフィングの操作性を改善する傾向にあることを示した．本研究成果は，電子情報通信学会 2022年3月音声研究会で公表した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 概ね計画書通りに進行している．
Strategy for Future Research Activity	今後は，本研究で提案した技術を多話者音声合成に拡張する予定である．
Causes of Carryover	今年度中に予定していた国際会議発表を次年度に変更したため，使用額に変更が生じた．差額は，次年度中に旅費に利用する予定である．

Research Products
(2 results)

All Presentation (2 results)

[Presentation] 多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム2022
- Author(s)
  仲井佑友輔，宇田川健太，齋藤佑樹，猿渡洋
- Organizer
  電子情報通信学会 2022年3月音声研究会
[Presentation] End-to-End音声合成のContinual Learningにおける破滅的忘却の影響の調査2021
- Author(s)
  齋藤佑樹，猿渡洋
- Organizer
  日本音響学会 2021年秋季研究発表会