• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

ガウス過程回帰に基づく音声合成技術の確立

Research Project

Project/Area Number 15H02724
Research InstitutionTokyo Institute of Technology

Principal Investigator

小林 隆夫  東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)

Co-Investigator(Kenkyū-buntansha) 郡山 知樹  東京工業大学, 総合理工学研究科(研究院), 助教 (50749124)
Project Period (FY) 2015-04-01 – 2018-03-31
Keywords音声情報処理 / テキスト音声合成 / 韻律生成 / GPR音声合成
Outline of Annual Research Achievements

テキスト音声合成の新たな枠組みであるガウス過程回帰(GPR)に基づく手法において,未確立であった韻律生成すなわち基本周波数(F0)の時間変化パタンと音韻継続長系列の予測手法の開発に重点を置いて研究を行い,以下の成果が得られた。
(1) GPRに基づくF0パタン生成に関して,開発済みであるGPRに基づく音声のスペクトルパラメータ系列生成手法を拡張した手法を提案した。スペクトルパラメータ系列と異なり,F0パタンは時間的に不連続となるという問題に対処するため,提案手法ではまず有声/無声区間の推定処理をガウス過程識別(GPC)を利用して行い,次に有声区間を対象にGPRに基づいたF0生成を行うことにより,F0パタン生成が可能なことを示した。
(2) GPR に基づく音韻継続長予測に関して,スペクトルパラメータ系列生成やF0パタン生成と同様の枠組みによる手法を提案し,さらにGPRに用いるフレームコンテキストの選択についても検討した。上記提案F0生成法と組み合わせて生成された韻律の客観評価を行い,従来のHMM音声合成手法に比べ歪みが大幅に減少する結果が得られた。
(3) スペクトル・韻律を共にGPRに基づいて生成するGPR音声合成システムを構築し,主観品質の観点から従来音声合成システムとの比較評価を行い,HMM音声合成と比べ有意に品質が向上する結果が得られた。
(4) ユニバーサルコミュニケーションに向けた音声合成として,日本語音声合成の他にも,韻律生成が難しい声調言語の一つであるタイ語にGPR音声合成手法を適用し,韻律の品質が向上することを示した。また,英語音声合成のためのフレームコンテキストに関する基礎的な検討を行った。
この他に,多様な話者性やスタイルに音声合成に向けたモデル適応手法の提案や,モデル学習に必要となる学習用音声データの自動韻律ラベリングに関する検討を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究の目的は,より自然で多様な音声の合成を可能とするために,新たな音声合成の枠組みであるガウス過程回帰に基づく音声合成(GPR音声合成)手法を提案し,その基盤技術を確立することにあり,研究初年度においては,未確立であった韻律生成手法の開発に重点をおいて研究を進め,GPR音声合成システムを実現することを目標としていた。
この観点からすると,入力言語情報からガウス過程回帰に基づいて韻律の時間変化パタンを生成する手法を提案し,確立済みのスペクトル生成と組み合わせたGPR音声合成システムを構築できたこと,また実現したGPR音声合成システムの客観・主観評価結果から,従来のHMM音声合成システムの性能を有意に上回ることを示すことができたことから,初年度の目標は十分達成できたと言える。さらにGPR音声合成手法に基づいた多様な話者性やスタイルによる音声合成のためのモデル適応手法の検討や,ユニバーサルコミュニケーションに向けたタイ語や英語など日本語以外の音声合成の検討を行うことができたことから,概ね順調に進んでいると判断した。

Strategy for Future Research Activity

研究初年度の研究は概ね計画通り進んでおり,計画の特段の変更は不要なことから,当初の計画に沿ってこのまま研究を進めていく。但し,研究開始当初に計画していたインドネシア語への適用に関しては,言語的な観点からはインドネシア語と英語に類似点が多いこと,インドネシア語に関する研究協力者の都合も考慮した上で,これ以上の検討は行わないこととし,その代わりに英語への適用に研究の比重を移すことにする。

  • Research Products

    (16 results)

All 2016 2015

All Journal Article (8 results) (of which Peer Reviewed: 3 results,  Open Access: 2 results,  Acknowledgement Compliant: 8 results) Presentation (8 results) (of which Int'l Joint Research: 3 results)

  • [Journal Article] A speaker adaptation technique for Gaussian process regression based speech synthesis using feature space transform2016

    • Author(s)
      Tomoki Koriyama, Syohei Oshio, Takao Kobayashi
    • Journal Title

      Proc. 2016 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)

      Volume: ICASSP Pages: 5610-5614

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] 音声合成のためのCRF/HMMに基づく自動アクセント推定の評価2016

    • Author(s)
      増子 理菜, 郡山 知樹, 小林 隆夫
    • Journal Title

      電子情報通信学会技術研究報告〔音声〕

      Volume: 115/SP2015-85 Pages: 1-6

    • Acknowledgement Compliant
  • [Journal Article] GPR音声合成におけるスタイル適応の検討2016

    • Author(s)
      前野 雄也, 郡山 知樹, 小林 隆夫
    • Journal Title

      日本音響学会2016年春季研究発表会講演論文集

      Volume: CD-ROM Pages: 233-234

    • Acknowledgement Compliant
  • [Journal Article] 多様なスタイルによるGPR音声合成の検討2016

    • Author(s)
      岡元 伶洋, 郡山 知樹, 小林 隆夫
    • Journal Title

      日本音響学会2016年春季研究発表会講演論文集

      Volume: CD-ROM Pages: 361-362

    • Acknowledgement Compliant
  • [Journal Article] Duration prediction using multi-level model for GPR-based speech synthesis2015

    • Author(s)
      Decha Moungsri, Tomoki Koriyama, Takao Kobayashi
    • Journal Title

      Proc. 16th Annual Conference of the International Speech Communication Association (INTERSPEECH)

      Volume: INTERSPEECH Pages: 1591-1595

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Journal Article] A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data2015

    • Author(s)
      Tomoki Koriyama, Takao Kobayashi
    • Journal Title

      Proc. 16th Annual Conference of the International Speech Communication Association (INTERSPEECH)

      Volume: INTERSPEECH Pages: 3496-3500

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Journal Article] GPR音声合成における話者適応手法の検討2015

    • Author(s)
      押尾 翔平, 郡山 知樹, 小林 隆夫
    • Journal Title

      日本音響学会2015年秋季研究発表会講演論文集

      Volume: CD-ROM Pages: 219-220

    • Acknowledgement Compliant
  • [Journal Article] ガウス過程回帰に基づく音声合成システムの評価2015

    • Author(s)
      郡山 知樹, 小林 隆夫
    • Journal Title

      日本音響学会2015年秋季研究発表会講演論文集

      Volume: CD-ROM Pages: 235-236

    • Acknowledgement Compliant
  • [Presentation] A speaker adaptation technique for Gaussian process regression based speech synthesis using feature space transform2016

    • Author(s)
      郡山 知樹, 小林 隆夫
    • Organizer
      2016 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2016
    • Place of Presentation
      上海国際会議中心(中国)
    • Year and Date
      2016-03-20 – 2016-03-25
    • Int'l Joint Research
  • [Presentation] 多様なスタイルによるGPR音声合成の検討2016

    • Author(s)
      岡元 伶洋, 郡山 知樹, 小林 隆夫
    • Organizer
      日本音響学会2016年春季研究発表会
    • Place of Presentation
      桐蔭横浜大学(神奈川県横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] GPR音声合成におけるスタイル適応の検討2016

    • Author(s)
      前野 雄也, 郡山 知樹, 小林 隆夫
    • Organizer
      日本音響学会2016年春季研究発表会
    • Place of Presentation
      桐蔭横浜大学(神奈川県横浜市)
    • Year and Date
      2016-03-09 – 2016-03-11
  • [Presentation] 音声合成のためのCRF/HMMに基づく自動アクセント推定の評価2016

    • Author(s)
      増子 理菜, 郡山 知樹, 小林 隆夫
    • Organizer
      電子情報通信学会・日本音響学会 音声研究会
    • Place of Presentation
      サンピアンかわさき(神奈川県川崎市)
    • Year and Date
      2016-01-14
  • [Presentation] GPR音声合成における話者適応手法の検討2015

    • Author(s)
      押尾 翔平, 郡山 知樹, 小林 隆夫
    • Organizer
      日本音響学会2015年秋季研究発表会
    • Place of Presentation
      会津大学(福島県会津若松市)
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] ガウス過程回帰に基づく音声合成システムの評価2015

    • Author(s)
      郡山 知樹, 小林 隆夫
    • Organizer
      日本音響学会2015年秋季研究発表会
    • Place of Presentation
      会津大学(福島県会津若松市)
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] Duration prediction using multi-level model for GPR-based speech synthesis2015

    • Author(s)
      Decha Moungsri, 郡山 知樹, 小林 隆夫
    • Organizer
      16th Annual Conference of the International Speech Communication Association, INTERSPEECH 2015
    • Place of Presentation
      ドレスデンインターナショナルコングレスセンター(ドイツ)
    • Year and Date
      2015-09-06 – 2015-09-10
    • Int'l Joint Research
  • [Presentation] A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data2015

    • Author(s)
      郡山 知樹, 小林 隆夫
    • Organizer
      16th Annual Conference of the International Speech Communication Association, INTERSPEECH 2015
    • Place of Presentation
      ドレスデンインターナショナルコングレスセンター(ドイツ)
    • Year and Date
      2015-09-06 – 2015-09-10
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi