• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Multilingual speech synthesis based on deep learning to reproduce the speaker and emotion of input speech in different languages

Research Project

Project/Area Number 20K11862
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionNagoya Institute of Technology

Principal Investigator

HASHIMOTO Kei  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

Project Period (FY) 2020-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Keywords音声合成 / 音声情報処理
Outline of Research at the Start

本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立する。深層学習に基づく音声合成において敵対的学習を導入し、言語・話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造・モデル学習法を明らかにする。さらに、異なる言語において入力音声の話者・感情を再現するための補助特徴量として利用者の顔画像や入力テキストを利用する手法を開発する。任意の言語・話者・感情の組み合わせの合成音声を生成可能な多言語音声合成技術を開発することで、自分の声のまま感情も伝えることができる自然な異言語間コミュニケーションの実現を目指す。

Outline of Final Research Achievements

To realize multilingual speech synthesis that reproduces the speaker and emotion of input speech in different languages, I have been working on deep neural network (DNN)-based multilingual speech synthesis that can separate speech features that depend on the language, speaker, and emotion of the input speech. I have proposed multilingual speech synthesis based on adversarial learning to separate language and speaker features, and a model structure to separate speaker and emotion. Additionally, I have proposed a speech synthesis model that uses face images as auxiliary features. The proposed method is expected to realize more natural global communication by generating speech that reproduces the characteristics of the speaker in different languages.

Academic Significance and Societal Importance of the Research Achievements

本研究では、音声に含まれる話者・言語・感情といった3つの特徴に注目し、入力音声と異なる言語において入力音声の声質や感情を再現する多言語音声合成技術に確立に取り組んだ。本研究の成果は、音声翻訳システムに応用することで、自分の話すことができない言語においても、自分の声のまま、感情表現を含む自然なコミュニケーションを実現することが期待される。

Report

(4 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • Research Products

    (25 results)

All 2023 2022 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (24 results) (of which Int'l Joint Research: 4 results)

  • [Journal Article] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

    • Author(s)
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Journal Title

      IEEE Access

      Volume: 9 Pages: 137599-137612

    • DOI

      10.1109/access.2021.3118033

    • Related Report
      2021 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] Embedding a differentiable mel-cepstral synthesis filter to a neural speech synthesis system2023

    • Author(s)
      Takenori Yoshimura, Shinji Takaki, Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      ICASSP 2023
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 半教師あり学習を用いた階層化生成モデルに基づく日本語 end-to-end 音声合成2022

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
    • Related Report
      2022 Annual Research Report
  • [Presentation] 微分可能なメルケプストラム合成フィルタを組み込んだend-to-end 音声合成システムの検討2022

    • Author(s)
      吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
    • Related Report
      2022 Annual Research Report
  • [Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いた音声合成におけるパラメータ共有構造の検討2022

    • Author(s)
      石田龍成, 藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年秋季研究発表会
    • Related Report
      2022 Annual Research Report
  • [Presentation] Autoregressive variational autoencoder with a hidden semi-Markov model-based structured attention for speech synthesis2022

    • Author(s)
      Takato Fujimoto, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      ICASSP 2022
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

    • Author(s)
      平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

    • Author(s)
      佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 非周期性指標を考慮したニューラルボコーダの学習2022

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2022年春季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

    • Author(s)
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research
  • [Presentation] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

    • Author(s)
      高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年秋季研究発表会
    • Related Report
      2021 Research-status Report
  • [Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

    • Author(s)
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

    • Author(s)
      角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021

    • Author(s)
      岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2021年春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 深層学習に基づく音声合成における顔画像を用いた話者適応2020

    • Author(s)
      平光啓祐,橋本佳,徳田恵一,南角吉彦
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Research-status Report
  • [Presentation] 音声合成における特徴的な発話スタイルの転移学習2020

    • Author(s)
      久野宏彰,高木信二,橋本佳,大浦圭一郎,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Research-status Report
  • [Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020

    • Author(s)
      大谷眞史,佐藤優介,高木信二,橋本佳,大浦圭一郎,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Research-status Report
  • [Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020

    • Author(s)
      岩田康平,高木信二,橋本佳,南角吉彦,徳田恵一
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Research-status Report
  • [Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020

    • Author(s)
      Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      Interspeech 2020
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] 感情音声合成のためのDirichlet VAE2020

    • Author(s)
      藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020

    • Author(s)
      法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020

    • Author(s)
      大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2020年秋季研究発表会
    • Related Report
      2020 Research-status Report

URL: 

Published: 2020-04-28   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi