A Study on Prosody Embedding Based on Gaussain Proceess Latent Variable Model
Project/Area Number |
17K12711
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Multi-year Fund |
Research Field |
Perceptual information processing
|
Research Institution | The University of Tokyo (2019) Tokyo Institute of Technology (2017-2018) |
Principal Investigator |
Koriyama Tomoki 東京大学, 大学院情報理工学系研究科, 助教 (50749124)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2018: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2017: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 音声情報処理 / 韻律 / ガウス過程 / 機械学習 / 音声合成 / 統計的音声合成 / ガウス過程潜在変数モデル / 生成モデル / 深層ガウス過程 / アクセント / 統計音声合成 / 半教師あり学習 |
Outline of Final Research Achievements |
In statistical speech synthesis, labels in speech synthesis must include not only text but also prosodic information. As a method to obtain latent prosodic information such as accent from speech, we proposed speech synthesis using Gaussian process latent variable model. In this study, we first investigate a speech synthesis system based on deep Gaussian processes, which can extract hidden embedding from complicated language features. The speech synthesis can infer unknown prosodic information as a randam variable of probabilistic model. Therefore, we proposed a semi-supervised speech synthesis system, in which labeled and unlabeled speech data is used as a trainind data by estimating latent prosodic features of the unlabeled speech data.
|
Academic Significance and Societal Importance of the Research Achievements |
音声合成におけるラベルはテキストだけではなく,テキストに含まれない韻律情報などを含める必要があり,話し言葉やオーディオブックなどの多様な音声合成システムを構築する際には,ラベルを付与に係るコストなどの問題が生じる.また,同じテキストであっても文脈によって読み方が変わることによるテキストからの韻律推定の困難さや,ラベリングを行う人物間でのラベルの不一致が生じる.そこで本研究では機械学習により韻律を低次元の潜在空間で表現する自動化手法を提案し,データベース構築の容易さや,多様な韻律表現による豊かな音声合成の構築への基礎の構築を行った.
|
Report
(4 results)
Research Products
(15 results)