Sustainably Developable Speech Synthesis Based on Continual Learning
Project/Area Number |
21K21305
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1002:Human informatics, applied informatics and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
Saito Yuki 東京大学, 大学院情報理工学系研究科, 助教 (20907901)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 音声合成 / 深層学習 / Continual Learning |
Outline of Research at the Start |
音声合成は人間とAIの音声情報伝達支援のために研究されており,機械学習に基づく音声情報処理技術の進展に伴い,高品質な音声を合成可能になりつつある.しかし,人間は過去の経験に関連付けることで新たな知識を逐次的・効率的に学習できる一方で,現状の音声合成は学習された知識を保持しつつ,新たな環境に適応するための機構を有さない.そこで本研究では,AIが継続的・階層的・追加的に知識を学習するための枠組みであるContinual Learningに基づく音声合成の学習法を提案し,既知のデータに対する再現精度を保持しつつ,追加データに対する予測性能も改善可能な理論を新たに構築する.
|
Outline of Final Research Achievements |
The purpose of this research is to build a foundation for continually trainable speech synthesis technologies. To accomplish this purpose, we 1) proposed continual learning (CL) for single-speaker speech synthesis, 2) developed an algorithm to extend 1) to multi-speaker speech synthesis, 3) developed a neural network method to extend 1) to empathetic dialogue speech synthesis, and 4) developed a speech corpus to extend 3) to multi-domain empathetic dialogue speech synthesis.
|
Academic Significance and Societal Importance of the Research Achievements |
人間は過去の経験に関連付けることで新たな知識を逐次的・効率的に学習できるが,現状の音声合成は与えられた音声データの高精度な再現を目的とした学習を1度行うのみであり,それにより得られた知識を保持しつつ,新たな環境に適応するための機構を有さない.そこで本研究では,AI が継続的・階層的・追加的に知識を学習するための枠組みである Continual Learning に基づく音声合成の学習法を提案し,既知のデータに対する再現精度を保持しつつ,追加で与えられるデータに対する予測性能も改善可能な音声合成理論を新たに構築した.
|
Report
(3 results)
Research Products
(6 results)