2021 Fiscal Year Final Research Report
A next-generation speech synthesis technology based on integration of hierarchical generative models and multi-task deep learning
Project/Area Number |
19H04136
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
Nankaku Yoshihiko 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声合成 / 深層学習 |
Outline of Final Research Achievements |
Recent deep learning-based speech synthesis techniques can generate very high-quality speech based on the end-to-end approach that directly models the transformation from input (text) to output (speech waveform). On the other hand, it still has three problems: 1) it requires a large amount of training data compared to conventional methods, 2) it is difficult to control the synthesized speech based on intuitively understandable speech features, and 3) a framework for using intermediate feature representations to connect input and output and incomplete data has not yet been established. This study developed a next-generation speech synthesis technology that solves these essential problems in the end-to-end approach and demonstrated its effectiveness through evaluation experiments.
|
Free Research Field |
音声情報処理
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は、統計的音声合成の先駆けとなった隠れマルコフモデルに基づく音声合成手法と近年の深層学習に基づく手法の融合を目指したものであり、これまでの研究分野の知見を活かしつつ、次世代へ発展させるという学術的意義を持った提案となっている。提案した音声合成の枠組みは、高い自然性を維持しつつ、話者性や感情、発話スタイルなどを自由自在にコントロール可能な、より柔軟な音声合成技術の基盤となるものであり、今後、音声対話や音声翻訳などの高度なアプリケーションへの活用によって、より豊かな音声コミュニケーションの実現が期待できる。
|