2013 Fiscal Year Research-status Report

ガウス過程回帰モデルに基づくノンパラメトリック音声合成の研究

Research Project

Project/Area Number	25540065
Research Category	Grant-in-Aid for Challenging Exploratory Research
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY)	2013-04-01 – 2015-03-31
Keywords	テキスト音声合成 / 統計的音声合成 / ガウス過程回帰 / フレームコンテキスト / カーネル関数 / HMM音声合成
Research Abstract	ガウス過程回帰を用いたノンパラメトリックモデル化に基づくテキスト音声合成手法の開拓・確立をめざして、研究初年度は、ガウス過程回帰モデルに基づく統計的音声合成の基礎的な検討に重点をおいて研究を実施した。具体的には、ガウス過程回帰モデルに必要なフレームコンテキストのカーネル関数について段階的に２項目の検討を行い、以下の成果が得られた。まず、単純なフレームコンテキストカーネルによる基礎的検討を行い、従来の隠れマルコフモデルに基づく音声合成の研究により得られた知見を基に音素などの音韻情報を時刻情報とともにフレームコンテキストとして用い、そのフレームコンテキストの類似度をカーネルとして利用した。先行・後続の音韻情報と時刻情報のみを用いて日本語５母音と５子音を対象とする音素単位のモデル化と音声合成を行った結果、従来の隠れマルコフモデルに基づく手法に比べて提案法は合成音声のスペクトル歪が減少することを示した。次に、音素単位での提案法の有効性が確認されたことから、フレームコンテキストの拡張と連続音声データへの適用の検討を行った。文章単位の音声合成に用いるコンテキストとして、先行・後続の音素のみでは不十分であると考えられることから、音素境界を考慮したフレームコンテキストの拡張を行った。また、そのままでは膨大な計算量が必要となるため、スパースカーネルなどによる近似より計算量の削減を行った。文章単位の音声合成実験を行い、スペクトル歪による客観評価と聴取試験による主観評価共に従来の従来の隠れマルコフモデルに基づく手法を上回る結果が得られることを示した。この他にも、モデルのハイパーパラメータの選択に関しても基本的な検討を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的は、ノンパラメトリック回帰の一つであるガウス過程回帰をテキスト音声合成に応用し、現在の統計的音声合成手法の主流である隠れマルコフモデルに基づく音声合成の限界を超える新たな音声合成手法を開拓することにあった。この観点から初年度は２項目により段階的に検討する計画を立て研究を行ったところ、当初の予定通り研究が進み、さらに従来手法の性能を上回る結果を示せたことから、概ね順調に進んでいると判断した。
Strategy for Future Research Activity	初年度の研究が概ね計画通り進んだことから、計画の特段の変更は不要であり、当初の計画に沿ってこのまま研究を進めていく。
Expenditure Plans for the Next FY Research Funding	研究分担者が年度半ばで研究機関を異動した関係で、必要な研究基盤整備のための金額配分が当初の予定と異なってしまったため。次年度が最終年度であることから、研究成果の公開のための費用と初年度未完了の研究基盤整備の費用として使用する予定。

Research Products
(8 results)

All 2014 2013

All Journal Article (4 results) (of which Peer Reviewed: 1 results) Presentation (4 results)

[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告音声
  
  Volume: 113, SP2013-99 Pages: 19-24
[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 355-356
[Journal Article] Statistical nonparametric speech synthesis using sparse Gaussian processes2013
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of the 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
  
  Volume: INTERSPEECH 2013 Pages: 1072-1076
- Peer Reviewed
[Journal Article] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2013年秋季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 311-312
[Presentation] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014
- Author(s)
  郡山知樹
- Organizer
  電子情報通信学会・日本音響学会音声研究会
- Place of Presentation
  名城大学天白キャンパス（愛知）
- Year and Date
  20140123-20140124
[Presentation] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2013年秋季研究発表会
- Place of Presentation
  豊橋技術科学大学（愛知）
- Year and Date
  20130925-20130927
[Presentation] Statistical nonparametric speech synthesis using sparse Gaussian processes2013
- Author(s)
  郡山知樹
- Organizer
  14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
- Place of Presentation
  リヨンコンベンションセンター（フランス）
- Year and Date
  20130825-20130829

2013 Fiscal Year Research-status Report

ガウス過程回帰モデルに基づくノンパラメトリック音声合成の研究

Principal Investigator

小林 隆夫 東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014

Author(s)

Journal Title

[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014

Author(s)

Journal Title

[Journal Article] Statistical nonparametric speech synthesis using sparse Gaussian processes2013

Author(s)

Journal Title

[Journal Article] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013

Author(s)

Journal Title

[Presentation] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Statistical nonparametric speech synthesis using sparse Gaussian processes2013

Author(s)

Organizer

Place of Presentation

Year and Date

小林隆夫東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)