A next-generation speech synthesis technology based on integration of hierarchical generative models and multi-task deep learning
Project/Area Number |
19H04136
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
Nankaku Yoshihiko 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Fiscal Year 2019: ¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
|
Keywords | 音声合成 / 深層学習 |
Outline of Research at the Start |
本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。
|
Outline of Final Research Achievements |
Recent deep learning-based speech synthesis techniques can generate very high-quality speech based on the end-to-end approach that directly models the transformation from input (text) to output (speech waveform). On the other hand, it still has three problems: 1) it requires a large amount of training data compared to conventional methods, 2) it is difficult to control the synthesized speech based on intuitively understandable speech features, and 3) a framework for using intermediate feature representations to connect input and output and incomplete data has not yet been established. This study developed a next-generation speech synthesis technology that solves these essential problems in the end-to-end approach and demonstrated its effectiveness through evaluation experiments.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は、統計的音声合成の先駆けとなった隠れマルコフモデルに基づく音声合成手法と近年の深層学習に基づく手法の融合を目指したものであり、これまでの研究分野の知見を活かしつつ、次世代へ発展させるという学術的意義を持った提案となっている。提案した音声合成の枠組みは、高い自然性を維持しつつ、話者性や感情、発話スタイルなどを自由自在にコントロール可能な、より柔軟な音声合成技術の基盤となるものであり、今後、音声対話や音声翻訳などの高度なアプリケーションへの活用によって、より豊かな音声コミュニケーションの実現が期待できる。
|
Report
(4 results)
Research Products
(35 results)