• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

A next-generation speech synthesis technology based on integration of hierarchical generative models and multi-task deep learning

Research Project

Project/Area Number 19H04136
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionNagoya Institute of Technology

Principal Investigator

Nankaku Yoshihiko  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)

Co-Investigator(Kenkyū-buntansha) 橋本 佳  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
徳田 恵一  名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
大浦 圭一郎  名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
Project Period (FY) 2019-04-01 – 2022-03-31
Project Status Completed (Fiscal Year 2021)
Budget Amount *help
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Fiscal Year 2019: ¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Keywords音声合成 / 深層学習
Outline of Research at the Start

本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。

Outline of Final Research Achievements

Recent deep learning-based speech synthesis techniques can generate very high-quality speech based on the end-to-end approach that directly models the transformation from input (text) to output (speech waveform). On the other hand, it still has three problems: 1) it requires a large amount of training data compared to conventional methods, 2) it is difficult to control the synthesized speech based on intuitively understandable speech features, and 3) a framework for using intermediate feature representations to connect input and output and incomplete data has not yet been established. This study developed a next-generation speech synthesis technology that solves these essential problems in the end-to-end approach and demonstrated its effectiveness through evaluation experiments.

Academic Significance and Societal Importance of the Research Achievements

本研究は、統計的音声合成の先駆けとなった隠れマルコフモデルに基づく音声合成手法と近年の深層学習に基づく手法の融合を目指したものであり、これまでの研究分野の知見を活かしつつ、次世代へ発展させるという学術的意義を持った提案となっている。提案した音声合成の枠組みは、高い自然性を維持しつつ、話者性や感情、発話スタイルなどを自由自在にコントロール可能な、より柔軟な音声合成技術の基盤となるものであり、今後、音声対話や音声翻訳などの高度なアプリケーションへの活用によって、より豊かな音声コミュニケーションの実現が期待できる。

Report

(4 results)
  • 2021 Annual Research Report   Final Research Report ( PDF )
  • 2020 Annual Research Report
  • 2019 Annual Research Report
  • Research Products

    (35 results)

All 2022 2021 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (33 results) (of which Int'l Joint Research: 9 results,  Invited: 2 results)

  • [Journal Article] Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System2021

    • Author(s)
      Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech and Language Processing

      Volume: 29 Pages: 2803-2815

    • DOI

      10.1109/taslp.2021.3104165

    • Related Report
      2021 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

    • Author(s)
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Journal Title

      IEEE Access

      Volume: 9 Pages: 137599-137612

    • DOI

      10.1109/access.2021.3118033

    • Related Report
      2021 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

    • Author(s)
      平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

    • Author(s)
      佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

    • Author(s)
      Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

    • Author(s)
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

    • Author(s)
      高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] DNN歌声合成のための調子はずれ補正2021

    • Author(s)
      法野行哉, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 発声タイミングのずれを考慮したsequence-to-sequence歌声合成2021

    • Author(s)
      法野行哉, 加藤大誠, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

    • Author(s)
      角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021

    • Author(s)
      岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 音声合成における特徴的な発話スタイルの転移学習2020

    • Author(s)
      久野宏彰,高木信二,橋本佳,大浦圭一郎,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Annual Research Report
  • [Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020

    • Author(s)
      大谷眞史,佐藤優介,高木信二,橋本佳,大浦圭一郎,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Annual Research Report
  • [Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020

    • Author(s)
      岩田康平,高木信二,橋本佳,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Annual Research Report
  • [Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020

    • Author(s)
      Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      Interspeech 2020
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 感情音声合成のためのDirichlet VAE2020

    • Author(s)
      藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020

    • Author(s)
      大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] Semi-supervised learning based on hierarchical generative models for end-to-end speech synthesis2020

    • Author(s)
      Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research
  • [Presentation] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020

    • Author(s)
      藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年春季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] Semi-Supervised Learning Based on Hierarchical Generative Models for End-to-End Speech Synthesis2020

    • Author(s)
      Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

    • Author(s)
      村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2019年秋季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

    • Author(s)
      大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      情報処理学会研究報告
    • Related Report
      2019 Annual Research Report
  • [Presentation] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

    • Author(s)
      大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2019年秋季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] Statistical approach to speech synthesis: past, present and future2019

    • Author(s)
      Keiichi Tokuda
    • Organizer
      Interspeech 2019
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

    • Author(s)
      Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      10th ISCA Speech Synthesis Workshop (SSW10)
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

    • Author(s)
      Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      10th ISCA Speech Synthesis Workshop (SSW10)
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

    • Author(s)
      Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      10th ISCA Speech Synthesis Workshop (SSW10)
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 統計的音声合成の進展と展望2019

    • Author(s)
      徳田恵一
    • Organizer
      音声研究会
    • Related Report
      2019 Annual Research Report
    • Invited
  • [Presentation] 歌声合成におけるニューラルボコーダの比較検討2019

    • Author(s)
      和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
    • Related Report
      2019 Annual Research Report

URL: 

Published: 2019-04-18   Modified: 2023-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi