A Study of Deep Gaussian Process Based Statistcal Speech Synthesis
Project/Area Number |
19K20292
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Koriyama Tomoki 東京大学, 大学院情報理工学系研究科, 講師 (50749124)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2020: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2019: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | ガウス過程 / 深層学習 / 音声合成 / 潜在変数モデル / 時系列モデル / end-to-endモデル / 深層ガウス過程 / 音声情報処理 / 系列モデリング / 時系列モデリング / 機械学習 |
Outline of Research at the Start |
ヒューマン・マシン・コミュニケーションにおいて重要な機能である音声合成において,深層モデルを用いた機械学習は不可欠なものとなっている.しかし,広く用いられる深層ニューラルネットワーク(DNN)は,未知のデータに対する頑健性を保証しないという問題点がある.そこで本研究課題では,未知のデータに頑健なモデルとして提案されている深層ガウス過程に注目し検討を行う.具体的には,統計モデルに基づく音声合成において,DNNに替わるモデルとして深層ガウス過程に基づくモデルを提案し,応用研究の十分でない深層ガウス過程モデルに対し,音声合成への応用を通じて,学習データに頑健な学習法や時系列を考慮したモデル構造を検討する.
|
Outline of Final Research Achievements |
We proposed an extension of deep-Gaussian-process (DGP)-based speech synthesis to enable time-series modeling of speech characteristics. Specifically, we proposed DGP with recurrent, self-attention, and sequence-to-sequence architecture. The proposed speech synthesis methods tend to generate more natural-sound speech than that generated by DNN-based ones that have similar architectures of DGP. The results of this research project show that various structures used in DGP can be used in a similar way to DNN, and that robust deep learning using Bayesian features is possible.
|
Academic Significance and Societal Importance of the Research Achievements |
現在,多くの機械学習の研究はDNNを基盤要素としているが,DNNの学習におけるハイパーパラメータの調整は手間のかかるものであり,機械学習モデルの構築は職人作業のようになっている現状がある.代替となり得るモデルとしてガウス過程回帰に注目が集まっているが,自由度が低く様々なデータに適用できない問題があった.本研究の応用実験によってガウス過程回帰の深層モデルとしての自由度の向上を明らかにした.この成果によって,音声に限らず自由度の高い深層学習モデルの頑健な学習への道筋の一つを示した.
|
Report
(4 results)
Research Products
(20 results)