• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Research Project

Project/Area Number 23700195
Research InstitutionTokyo Institute of Technology

Principal Investigator

能勢 隆  東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)

KeywordsHMM音声合成 / 対話音声合成 / 音声コーパス設計 / 音声パラメータ生成 / スタイル変換 / 歌声合成
Research Abstract

本研究は、あたかも人間が話しているかのような,より多くの感情・発話様式・発話意図が自然かつ多様に変化する次世代の高品質音声合成システムの実現を目的としており、平成24年度は以下の項目について成果が得られた。
(1)対話音声合成用コーパスの構築:豊かな感情表現・発話様式(スタイル)を伴う話し言葉調の音声の合成を目的とし、従来の音韻バランスのみを考慮したコーパス設計ではなく、アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。
(2)局所的系列内変動を考慮した音声パラメータ生成法の提案:従来の系列内変動を考慮した音声パラメータ生成法は発話毎のグローバルな分散情報のみを利用しており、スペクトルピークの過剰な強調により部分的に音質が劣化する場合があるという問題点があった。これに対し局所的な系列内変動をモデル化し、パラメータ生成時に利用することで、この問題を軽減し、より人間の音声に近い合成音声を生成できることを示した。
(3)多様なスタイル音声生成のためのスタイル変換法の提案:従来の統計的音声合成法では目標話者の目標スタイルの音声をあらかじめ用意する必要があった。これに対し不特定話者スタイル変換法を新たに提案し、目標話者の読み上げ音声のみから多様なスタイルを伴う音声を生成できることを示した。
(4)歌声合成におけるスタイル制御法の提案:歌声合成において、ユーザがスタイルとその度合いを直観的に変化させることができるように、重回帰隠れセミマルコフモデルに基づくスタイル制御法を歌声合成に適用し、その有効性を示した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

小規模音声コーパスによる検討は既に行い有効性を示しているが、より大規模な、あるいは多様なコーパスの設計、評価が未だ実施できていないため。

Strategy for Future Research Activity

小規模音声コーパスに対する知見を利用して、より大規模な、あるいは多様なコーパスの設計、評価を実施する。

Expenditure Plans for the Next FY Research Funding

未使用額の発生状況:小規模コーパスの設計のための理論構築、検討に予定より時間がかかったため、大規模コーパスを設計し、実際に音声収録を行いデータベースを作成する段階まで進むことができなかった。
研究費の使用計画:未使用額も次年度の計画(より大規模な、あるいは多様なコーパスの設計を行うための音声データベース作成)のために使用する。

  • Research Products

    (25 results)

All 2013 2012 Other

All Journal Article (13 results) (of which Peer Reviewed: 3 results) Presentation (12 results) (of which Invited: 1 results)

  • [Journal Article] An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model2013

    • Author(s)
      Takashi Nose, Takao Kobayashi
    • Journal Title

      Speech Communication

      Volume: Vol.55, No.2 Pages: 347-357

    • DOI

      10.1016/j.specom.2012.09.003

    • Peer Reviewed
  • [Journal Article] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

    • Author(s)
      能勢 隆
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: Vol.112, No.422 Pages: 67-72

  • [Journal Article] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: Vol.112, No.422 Pages: 73-78

  • [Journal Article] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013

    • Author(s)
      能勢 隆, 金本美沙, 郡山知樹, 小林隆夫
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: Vol.112, No.422 Pages: 79-84

  • [Journal Article] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013

    • Author(s)
      郡山知樹, 能勢 隆, 小林隆夫
    • Journal Title

      日本音響学会2013年春季研究発表会講演論文集

      Volume: vol.1 Pages: 271-272

  • [Journal Article] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Journal Title

      日本音響学会2013年春季研究発表会講演論文集

      Volume: vol.1 Pages: 295-296

  • [Journal Article] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

    • Author(s)
      荒生侑介, 能勢 隆, 小林隆夫
    • Journal Title

      日本音響学会2013年春季研究発表会講演論文集

      Volume: vol.1 Pages: 499-500

  • [Journal Article] Discontinuous observation HMM for prosodic-event-based F0 generation2012

    • Author(s)
      Tomoki Koriyama, Takashi Nose, Takao Kobayashi
    • Journal Title

      Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012

      Volume: vol.1 Pages: 462-465

    • Peer Reviewed
  • [Journal Article] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

    • Author(s)
      Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
    • Journal Title

      Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012

      Volume: vol.1 Pages: 1151-1154

    • Peer Reviewed
  • [Journal Article] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

    • Author(s)
      能勢 隆, ワータヤー・チュンウィジター, 小林隆夫
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: vol.1 Pages: 277-278

  • [Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

    • Author(s)
      能勢 隆, 小林隆夫
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: vol.1 Pages: 279-280

  • [Journal Article] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討2012

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Journal Title

      日本音響学会2012年秋季研究発表会講演論文集

      Volume: vol.1 Pages: 431-432

  • [Journal Article] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用2012

    • Author(s)
      能勢 隆, ワータヤー・チュンウィジター, 小林隆夫
    • Journal Title

      電子情報通信学会技術研究報告

      Volume: Vol.112, No.81 Pages: 43-48

  • [Presentation] Discontinuous observation HMM for prosodic-event-based F0 generation

    • Author(s)
      Tomoki Koriyama, Takashi Nose, Takao Kobayashi
    • Organizer
      13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
    • Place of Presentation
      Portland, USA
  • [Presentation] A speech parameter generation algorithm using local variance for HMM-based speech synthesis

    • Author(s)
      Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
    • Organizer
      13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
    • Place of Presentation
      Portland, USA
  • [Presentation] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討

    • Author(s)
      能勢 隆, ワータヤー・チュンウィジター, 小林隆夫
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学
  • [Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討

    • Author(s)
      能勢 隆, 小林隆夫
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学
  • [Presentation] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Organizer
      日本音響学会2012年秋季研究発表会
    • Place of Presentation
      信州大学
  • [Presentation] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用

    • Author(s)
      能勢 隆, ワータヤー・チュンウィジター, 小林隆夫
    • Organizer
      音声研究会
    • Place of Presentation
      東北工業大学
  • [Presentation] 統計モデルに基づく音声合成における話者・スタイルの多様化

    • Author(s)
      能勢 隆
    • Organizer
      音声研究会
    • Place of Presentation
      同志社大学
    • Invited
  • [Presentation] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Organizer
      音声研究会
    • Place of Presentation
      同志社大学
  • [Presentation] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討

    • Author(s)
      能勢 隆, 金本美沙, 郡山知樹, 小林隆夫
    • Organizer
      音声研究会
    • Place of Presentation
      同志社大学
  • [Presentation] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討

    • Author(s)
      郡山知樹, 能勢 隆, 小林隆夫
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学
  • [Presentation] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価

    • Author(s)
      金川裕紀, 能勢 隆, 小林隆夫
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学
  • [Presentation] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討

    • Author(s)
      荒生侑介, 能勢 隆, 小林隆夫
    • Organizer
      日本音響学会2013年春季研究発表会
    • Place of Presentation
      東京工科大学

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi