2021 Fiscal Year Research-status Report
Sustainably Developable Speech Synthesis Based on Continual Learning
Project/Area Number |
21K21305
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 佑樹 東京大学, 大学院情報理工学系研究科, 特任助教 (20907901)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Keywords | 音声合成 / 深層学習 / Continual Learning |
Outline of Annual Research Achievements |
(1) 単一話者の多ドメイン音声合成のためのContinual Learningの検討:近年広く用いられている音声合成モデルであるFastSpeech2ベースの音声合成において,単一話者の多様なドメインのテキスト読み上げ音声が逐次的に与えられるContinual Learningを想定した実験を実施した.結果から,(1)破滅的忘却の影響は,合成音声の韻律・スペクトル包絡特徴量の予測において特に顕著であること,(2)リハーサル法が破滅的忘却に起因する合成音声の品質劣化を緩和させることを示した.本研究成果は,日本音響学会 2021年秋季研究発表会で公表した.
(2) (1)の内容を多話者音声合成に拡張するための予備検討として,学習データに含まれる既知話者の音声特徴量の分布と,学習データに含まれない(既知話者の特徴を補間して得られる)未知話者の音声特徴量の分布を近づけるような制約を考慮した敵対的学習により,未知話者の高品質な音声を合成できる技術を提案した.実験的評価の結果から,提案技術が合成音声の話者類似性と,話者モーフィングの操作性を改善する傾向にあることを示した.本研究成果は,電子情報通信学会 2022年3月音声研究会で公表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
概ね計画書通りに進行している.
|
Strategy for Future Research Activity |
今後は,本研究で提案した技術を多話者音声合成に拡張する予定である.
|
Causes of Carryover |
今年度中に予定していた国際会議発表を次年度に変更したため,使用額に変更が生じた.差額は,次年度中に旅費に利用する予定である.
|