• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

Research Project

Project/Area Number 24300071
Research Category

Grant-in-Aid for Scientific Research (B)

Research InstitutionTokyo Institute of Technology

Principal Investigator

小林 隆夫  東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

Co-Investigator(Kenkyū-buntansha) 能勢 隆  東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
Project Period (FY) 2012-04-01 – 2015-03-31
Keywordsテキスト音声合成 / HMM音声合成 / 自然発話音声 / 話者正規化学習 / 韻律イベント / ガウス過程回帰 / 共有決定木 / クロスリンガル音声合成
Research Abstract

ロバスト音声合成技術の深化・発展を目指し、基本技術に関する理論的検討、既存提案手法の高度化と新手法の提案を行う共に、ロバスト音声合成の多言語への応用に関してタイ語、中国語、英語、インドネシア語について検討を行い、以下の成果が得られた。
表現性にロバストな音声合成法として、任意の目標話者の読上げ調スタイル以外の所望のスタイル音声を合成することを目的として、話者正規化学習を導入した新たな手法を提案した。提案手法は目標話者の目標スタイル音声が必要ないことから、時間とコストのかかるモデル学習用音声の収録が不要となり、多様な話者性による表現豊かな音声合成がより容易にできる特徴がある。また、合成音声品質の改善を目的として、ノンパラメトリックモデルに基づく新たな音韻モデル化手法を着想し、基礎的な検討を始めた。
自発音声・会話音声の合成に関しては、多様な韻律特徴のモデル化を可能とするために、基本周波数(FO)の無声音部分における観測値の不連続性を考慮し、従来の音韻単位ではなく韻律イベントを単位とする新たな統計的FOモデル化手法を提案し、実際の自発音声合成に対してその有効性を示した。また、既存の自発音声コーパスに加えて、インターネットのツィート文を対象とした音韻・韻律を考慮した音声コーパス構築法を提案した。
音声資源が乏しい言語の音声合成に関しては、FO量子化コンテキストを導入したモデル化手法によるタイ語音声合成の検討を進めると共に、インドネシア語の音声合成に向けた予備的な検討として、モデル化に必要となるコンテキストの評価を行った。
多言語の音声合成へのアプローチとして、平均声方式における共有決定木手法を言語の多様性に対して適用した新たなクロスリンガル音声合成手法を提案し、日本語・英語及び日本語・中国語のクロスリンガル音声合成について評価を行い、提案手法の有効性を確認した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究を4項目に分けて実施した結果、それぞれ当初計画した通りに研究が進み、成果が得られた他、ロバスト音声合成に関して新たな手法の着想とその検討を始めることができたことから、概ね順調に進んでいると判断した。

Strategy for Future Research Activity

初年度の研究は概ね計画通り進んでおり、計画の特段の変更は不要なことから、当初の計画に沿ってこのまま研究を進めていく。

Expenditure Plans for the Next FY Research Funding

音声データ収録を発注予定であったが、当初構想した発話文章数を収録すると想定した金額を超過することが判明し、発話内容や収録文章数の再検討が必要になったことから、収録を次年度に延期した。研究目的達成のために必要な発話内容を客観的・主観的観点から厳選した上で、収録を行う。

  • Research Products

    (25 results)

All 2013 2012

All Journal Article (13 results) (of which Peer Reviewed: 3 results) Presentation (12 results)

  • [Journal Article] An intuitive style control technique in HMM-based expressive speechsynthesis using subjective style intensity and multiple-regression globalvariance model2013

    • Author(s)
      Takashi Nose
    • Journal Title

      Speech Communication

      Volume: 55 Pages: 347-357

    • DOI

      10.1016/j.specom.2012.09.003

    • Peer Reviewed
  • [Journal Article] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

    • Author(s)
      能勢隆
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: 112 SP2012-109(招待講演) Pages: 67-72

  • [Journal Article] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013

    • Author(s)
      金川裕紀
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: 112 SP2012-110 Pages: 79-84

  • [Journal Article] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013

    • Author(s)
      能勢隆
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: CD-ROM Pages: 271-272

  • [Journal Article] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検2013

    • Author(s)
      郡山知樹
    • Journal Title

      日本音響学会2013年春季研究発表会講演論文集

      Volume: CD-ROM Pages: 271-272

  • [Journal Article] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

    • Author(s)
      金川裕紀
    • Journal Title

      日本音響学会2013年春季研究発表講演論文集

      Volume: CD-ROM Pages: 295-296

  • [Journal Article] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

    • Author(s)
      荒生侑介
    • Journal Title

      日本音響学会2013年春季研究発表講演論文集

      Volume: CD-ROM Pages: 499-500

  • [Journal Article] Discontinuous observation HMM for prosodic-event-based FO generation2012

    • Author(s)
      Tomoki Koriyama
    • Journal Title

      Proceedings of the 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012

      Volume: (CD-ROM)

    • Peer Reviewed
  • [Journal Article] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

    • Author(s)
      Vataya Chunwijitra
    • Journal Title

      Proceedings of the 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012

      Volume: (CD-ROM)

    • Peer Reviewed
  • [Journal Article] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

    • Author(s)
      能勢隆
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: (CD-ROM) Pages: 277-278

  • [Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

    • Author(s)
      能勢隆
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: (CD-ROM) Pages: 279-280

  • [Journal Article] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の2012

    • Author(s)
      金川 裕紀
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: (CD-ROM) Pages: 431-432

  • [Journal Article] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012

    • Author(s)
      能勢隆
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: 112 SP2012-79 Pages: 43-48

  • [Presentation] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

    • Author(s)
      荒生侑介
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学, 東京都八王子市
    • Year and Date
      2013-03-15
  • [Presentation] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013

    • Author(s)
      郡山知樹
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学, 東京都八王子市
    • Year and Date
      2013-03-13
  • [Presentation] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

    • Author(s)
      金川裕紀
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学, 東京都八王子市
    • Year and Date
      2013-03-13
  • [Presentation] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

    • Author(s)
      能勢隆
    • Organizer
      2013年1月度音声研究会
    • Place of Presentation
      同志社大学, 京都府京田辺市(招待講演)
    • Year and Date
      2013-01-31
  • [Presentation] 任意話者の多様なスタイル生成のための話者正規化2013

    • Author(s)
      金川裕紀
    • Organizer
      2013年1月度音声研究会
    • Place of Presentation
      同志社大学, 京都府京田辺市
    • Year and Date
      2013-01-31
  • [Presentation] 多様な歌声合成のための重回帰HSMMIに基づくスタイル制御法の検討2013

    • Author(s)
      能勢隆
    • Organizer
      2013年1月度音声研究会
    • Place of Presentation
      同志社大学, 京都府京田辺市
    • Year and Date
      2013-01-31
  • [Presentation] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012

    • Author(s)
      能勢隆
    • Organizer
      2012年11月度音声研究会
    • Place of Presentation
      東北工業大学, 宮城県仙台市
    • Year and Date
      2012-11-08
  • [Presentation] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

    • Author(s)
      能勢隆
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学, 長野県長野市
    • Year and Date
      2012-09-20
  • [Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

    • Author(s)
      能勢 隆
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学,長野県長野市
    • Year and Date
      2012-09-20
  • [Presentation] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の2012

    • Author(s)
      金川裕紀
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学,長野県長野市
    • Year and Date
      2012-09-20
  • [Presentation] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

    • Author(s)
      Vataya Chunwijitra
    • Organizer
      13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
    • Place of Presentation
      Portland, USA
    • Year and Date
      2012-09-11
  • [Presentation] Discontinuous observation HMM for prosodic-e vent-based FO generation2012

    • Author(s)
      Tomoki Koriyama
    • Organizer
      13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
    • Place of Presentation
      Portland, USA
    • Year and Date
      2012-09-10

URL: 

Published: 2014-07-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi