2017 Fiscal Year Annual Research Report
Establishment of speech synthesis framework based on Gaussian process regression
Project/Area Number |
15H02724
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 工学院, 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
郡山 知樹 東京工業大学, 工学院, 助教 (50749124)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 音声情報処理 / テキスト音声合成 / 韻律生成 / GPR音声合成 / 深層ガウス過程 |
Outline of Annual Research Achievements |
テキスト音声合成の新たな枠組みであるガウス過程回帰(GPR)に基づく手法において,研究最終年度となる本年度は,さらなる合成音声品質の向上と多様化に関する検討を加え,GPR音声合成技術の基盤確立に向けて以下の成果を得た。 (1) GPR音声合成手法の確立:前年度までに確立したGPR音声合成手法の基本的枠組みに対し,さらなる合成音声品質の向上をめざし,フレームコンテキストカーネルに基づく決定木構築法, ガウス過程(GP)と深層ニューラルネットワーク(DNN)と組み合わせたGP-DNNハイブリッドモデル,深層GPの導入等の新たな手法の提案を行い,評価実験を通して提案手法の有効性を示した。 (2) 多様な話者性・スタイルによるGPR音声合成:複数話者の音声データと特徴量空間における線形変換に基づいて多様な話者性・スタイルを持つ音声を生成可能とするGPR音声合成手法において,木構造で表現された複数の特徴量変換を利用する手法の詳細な検討を行い,合成音声の品質が向上することを示した。 (3) オーディオブック音声・歌声音声合成への適用:多様な発話様式や感情表現を持つ表現豊かな音声合成の実現に向けて,GPR音声合成手法をオーディオブック音声合成や歌声合成に適用して評価を行った結果,従来法に比べ品質が向上することを示した。 (4) ユニバーサルコミュニケーションに向けた音声合成:韻律生成が難しい声調言語の一つであるタイ語に対し,GPR音声合成に基づいた声調,ストレス,継続長を含む韻律のモデル化と生成に関する詳細な検討を行い,音素レベルに加えて音節レベルを考慮した基本周波数及び音素継続長の新たな生成手法を提案し,評価実験を通して提案手法の有効性を示した。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(16 results)