2019 Fiscal Year Annual Research Report
A Study on Prosody Embedding Based on Gaussain Proceess Latent Variable Model
Project/Area Number |
17K12711
|
Research Institution | The University of Tokyo |
Principal Investigator |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 助教 (50749124)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 統計的音声合成 / ガウス過程潜在変数モデル / 生成モデル / 深層ガウス過程 / アクセント / 韻律 |
Outline of Annual Research Achievements |
音声情報処理における基本であるアクセントやトーン(声調),感情表現や発話意図などのラベリングや認識を目的としたピッチ曲線のモデル化手法として ,ガウス過程潜在変数モデルを用いた,韻律の分散表現の開拓・確立を目的として,本年度は以下の成果を得た. 1.前年度に確立した深層ガウス過程(DGP)の音声合成を拡張することにより,韻律の分散表現を獲得する手法を提案した.具体的には音声合成における入力言語特徴量のうちアクセントを表す変数を未知とし,変分ベイズ法を用いて言語特徴量を表す分散表現を推論する.これを用いることで音声合成の半教師あり学習を行うことができる.アノテーションコストの高い日本語のアクセントに対して評価実験を行い,アクセントラベルの付与された音声データが1割程度であっても,すべてのデータにラベルが付与されている場合と同程度に品質の高い合成音声を生成可能であることを示した. 2.また,DGP音声合成の応用として,多人数の音声を同時にモデル化する多話者音声合成への適用を行った.多話者音声合成において,話者空間をガウス過程回帰により表現する手法を提案し,DGP音声合成がDNN音声合成と比較して自然性の高い音声を合成できることを示した.さらに,潜在変数モデルを多話者音声合成に用いることで,より解釈しやすい話者空間の構築および,目標話者の発話数が少量の場合でも音声合成が可能であることを示した.
|