2017 Fiscal Year Annual Research Report

Establishment of speech synthesis framework based on Gaussian process regression

Research Project

Project/Area Number	15H02724
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 工学院, 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	郡山知樹東京工業大学, 工学院, 助教 (50749124)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	音声情報処理 / テキスト音声合成 / 韻律生成 / GPR音声合成 / 深層ガウス過程
Outline of Annual Research Achievements	テキスト音声合成の新たな枠組みであるガウス過程回帰（GPR）に基づく手法において，研究最終年度となる本年度は，さらなる合成音声品質の向上と多様化に関する検討を加え，GPR音声合成技術の基盤確立に向けて以下の成果を得た。 (1) GPR音声合成手法の確立：前年度までに確立したGPR音声合成手法の基本的枠組みに対し，さらなる合成音声品質の向上をめざし，フレームコンテキストカーネルに基づく決定木構築法，ガウス過程（GP）と深層ニューラルネットワーク（DNN）と組み合わせたGP-DNNハイブリッドモデル，深層GPの導入等の新たな手法の提案を行い，評価実験を通して提案手法の有効性を示した。 (2) 多様な話者性・スタイルによるGPR音声合成：複数話者の音声データと特徴量空間における線形変換に基づいて多様な話者性・スタイルを持つ音声を生成可能とするGPR音声合成手法において，木構造で表現された複数の特徴量変換を利用する手法の詳細な検討を行い，合成音声の品質が向上することを示した。 (3) オーディオブック音声・歌声音声合成への適用：多様な発話様式や感情表現を持つ表現豊かな音声合成の実現に向けて，GPR音声合成手法をオーディオブック音声合成や歌声合成に適用して評価を行った結果，従来法に比べ品質が向上することを示した。 (4) ユニバーサルコミュニケーションに向けた音声合成：韻律生成が難しい声調言語の一つであるタイ語に対し，GPR音声合成に基づいた声調，ストレス，継続長を含む韻律のモデル化と生成に関する詳細な検討を行い，音素レベルに加えて音節レベルを考慮した基本周波数及び音素継続長の新たな生成手法を提案し，評価実験を通して提案手法の有効性を示した。
Research Progress Status	29年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	29年度が最終年度であるため、記入しない。

Research Products
(16 results)

All 2018 2017

All Journal Article (8 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (8 results) (of which Int'l Joint Research: 1 results, Invited: 1 results)

[Journal Article] GPR-based Thai speech synthesis using multi-level duration prediction2018
- Author(s)
  Decha Moungsri, Tomoki Koriyama, Takao Kobayashi
- Journal Title
  
  Speech Communication
  
  Volume: 99 Pages: 114-123
- DOI
  https://doi.org/10.1016/j.specom.2018.03.005
- Peer Reviewed
[Journal Article] GP-DNNハイブリッドモデルに基づく統計的音声合成の検討2018
- Author(s)
  郡山知樹, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告(SP)
  
  Volume: 117(393) Pages: 5-10
[Journal Article] GPR音声合成における深層ガウス過程の利用の検討2018
- Author(s)
  郡山知樹, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告(SP)
  
  Volume: 117(517) Pages: 27-32
[Journal Article] GPR音声合成における区分線形変換を用いたスタイル適応のためのデータ分割法の検討2018
- Author(s)
  前野雄也, 郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2018年春季研究発表会講演論文集
  
  Volume: - Pages: 295-296
[Journal Article] GPR音声合成における深層構造の利用の検討2018
- Author(s)
  郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2018年春季研究発表会講演論文集
  
  Volume: - Pages: 1507-1508
[Journal Article] Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features2017
- Author(s)
  Decha Moungsri, Tomoki Koriyama, Takao Kobayashi
- Journal Title
  
  Proceedings of APSIPA Annual Summit and Conference 2017
  
  Volume: - Pages: 1-4
- Peer Reviewed / Open Access
[Journal Article] GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討2017
- Author(s)
  郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2017年秋季研究発表会講演論文集
  
  Volume: - Pages: 177-178
[Journal Article] ガウス過程回帰に基づく歌声合成の検討2017
- Author(s)
  郡山知樹, 岡野祐紀, 小林隆夫
- Journal Title
  
  日本音響学会2017年秋季研究発表会講演論文集
  
  Volume: - Pages: 295-296
[Presentation] GP-DNNハイブリッドモデルに基づく統計的音声合成の検討2018
- Author(s)
  郡山知樹
- Organizer
  電子情報通信学会音声研究会
[Presentation] GPR音声合成における深層ガウス過程の利用の検討2018
- Author(s)
  郡山知樹
- Organizer
  電子情報通信学会音声研究会
[Presentation] GPR音声合成における区分線形変換を用いたスタイル適応のためのデータ分割法の検討2018
- Author(s)
  前野雄也
- Organizer
  日本音響学会2018年春季研究発表会
[Presentation] GPR音声合成における深層構造の利用の検討2018
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2018年春季研究発表会
[Presentation] Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features2017
- Author(s)
  Decha Moungsri
- Organizer
  APSIPA Annual Summit and Conference 2017
- Int'l Joint Research
[Presentation] 表現豊かな音声合成に向けた多様な話者性とスタイルによる音声合成への取組み2017
- Author(s)
  小林隆夫
- Organizer
  第19回音声言語シンポジウム
- Invited
[Presentation] GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討2017
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2017年秋季研究発表会
[Presentation] ガウス過程回帰に基づく歌声合成の検討2017
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2017年秋季研究発表会

2017 Fiscal Year Annual Research Report

Establishment of speech synthesis framework based on Gaussian process regression

Principal Investigator

小林 隆夫 東京工業大学, 工学院, 教授 (70153616)

Research Products

[Journal Article] GPR-based Thai speech synthesis using multi-level duration prediction2018

Author(s)

Journal Title

DOI

[Journal Article] GP-DNNハイブリッドモデルに基づく統計的音声合成の検討2018

Author(s)

Journal Title

[Journal Article] GPR音声合成における深層ガウス過程の利用の検討2018

Author(s)

Journal Title

[Journal Article] GPR音声合成における区分線形変換を用いたスタイル適応のためのデータ分割法の検討2018

Author(s)

Journal Title

[Journal Article] GPR音声合成における深層構造の利用の検討2018

Author(s)

Journal Title

[Journal Article] Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features2017

Author(s)

Journal Title

[Journal Article] GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討2017

Author(s)

Journal Title

[Journal Article] ガウス過程回帰に基づく歌声合成の検討2017

Author(s)

Journal Title

[Presentation] GP-DNNハイブリッドモデルに基づく統計的音声合成の検討2018

Author(s)

Organizer

[Presentation] GPR音声合成における深層ガウス過程の利用の検討2018

Author(s)

Organizer

[Presentation] GPR音声合成における区分線形変換を用いたスタイル適応のためのデータ分割法の検討2018

Author(s)

Organizer

[Presentation] GPR音声合成における深層構造の利用の検討2018

Author(s)

Organizer

[Presentation] Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features2017

Author(s)

Organizer

[Presentation] 表現豊かな音声合成に向けた多様な話者性とスタイルによる音声合成への取組み2017

Author(s)

Organizer

[Presentation] GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討2017

Author(s)

Organizer

[Presentation] ガウス過程回帰に基づく歌声合成の検討2017

Author(s)

Organizer

小林隆夫東京工業大学, 工学院, 教授 (70153616)