• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

A Study on DNN-based speech synthesis to improve expressiveness of emotion and speaker individuality

Research Project

Project/Area Number 21K11963
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionOkayama University

Principal Investigator

Abe Masanobu  岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)

Co-Investigator(Kenkyū-buntansha) 原 直  岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
Project Period (FY) 2021-04-01 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords音声合成 / 感情 / 話者性 / 音声対話システム / DNN / 感情音声 / WaveNet / x-vector / 深層学習 / マルチモダル
Outline of Research at the Start

音声対話システムの合成音声出力として、より自然な応答を実現するために多様な感情表現を可能とするとともに話者性を自由度高く表現できる音声合成方式の確立を目指す。研究のポイントはWaveNetをベースとする音声生成過程を考慮しない新しいDNNの音声信号生成法の検討にあり、検討項目は①非言語情報の表現モデル、②知識蒸留(Knowledge Distillation)の発想に基づく少量データに基づく学習、③音声対話システムにおける有効性の検証である。

Outline of Final Research Achievements

In DNN-based speech synthesis, we examined methods for expressing non-verbal information such as emotions and individuality through two approaches. Approach 1 prioritizes the transmission of emotions over linguistic information. After training with several hours of normal speech data, the model is retrained with about 10 minutes of emotional speech. It was found that this approach can synthesize emotional speech while maintaining the naturalness of human speech, and it also allows for controlling the intensity of the emotion. Approach 2 reflects the emotions contained in the input speech into the synthesized speech. After modifying the speaker's identity through voice conversion, the emotional information is conditioned with x-vectors for TTS. Evaluation experiments revealed that this approach can synthesize speech that reflects not only the emotions of the input speech but also the intensity of those emotions.

Academic Significance and Societal Importance of the Research Achievements

テキストからの音声合成(Text-to-Speech:TTS)は,近年の深層学習(Deep Leaning)に基づくDeep Neural Networks(DNN)を利用することで飛躍的に性能が向上し,音声対話システムに導入されるに至った.音声は人間にとって便利なコミュニケーション手段であることから、今後もさらに合成音声の用途が増えていくと考えられる。その際、非言語情報である感情や個人性を含めた多様性を十分に表現することが肝要である。本研究は少量のデータによって非言語情報を制御する方式を提案しており、今後の音声対話システムを広く展開する上で必要な要素技術となる。

Report

(4 results)
  • 2023 Annual Research Report   Final Research Report ( PDF )
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (9 results)

All 2023 2022 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (7 results) Remarks (1 results)

  • [Journal Article] Speech-Like Emotional Sound Generation Using WaveNet2022

    • Author(s)
      Kento Matsumoto, Sunao Hara, Masanobu Abe
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E105.D Issue: 9 Pages: 1581-1589

    • DOI

      10.1587/transinf.2021EDP7236

    • ISSN
      0916-8532, 1745-1361
    • Year and Date
      2022-09-01
    • Related Report
      2022 Research-status Report
    • Peer Reviewed
  • [Presentation] 音声対話システムのテキスト音声合成における声質変換とx-vector 埋め込みを用いた感情制御方式の検討2023

    • Author(s)
      小原俊一, 阿部匡伸, 原直
    • Organizer
      日本音響学会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Speech-Emotion Control for Text-to-Speech in Spoken Dialogue Systems Using Voice Conversion and x-vector Embedding2023

    • Author(s)
      Shunichi Kohara, Masanobu Abe, Sunao Hara
    • Organizer
      APSIPA
    • Related Report
      2023 Annual Research Report
  • [Presentation] 音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討2023

    • Author(s)
      小原俊一, 阿部匡伸, 原直
    • Organizer
      電子情報通信学会
    • Related Report
      2022 Research-status Report
  • [Presentation] 小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討2023

    • Author(s)
      和田拓海,原直,阿部匡伸
    • Organizer
      日本音響学会
    • Related Report
      2022 Research-status Report
  • [Presentation] 話者特徴量の操作によりシームレスに話者性を制御できるEnd-to-End 音声合成方式の検討2022

    • Author(s)
      青谷直樹, 原直, 阿部匡伸
    • Organizer
      電子情報通信学会
    • Related Report
      2022 Research-status Report
  • [Presentation] 差分メルケプストラムを用いた声質変換による喉締め歌唱音声改善方式の検討2022

    • Author(s)
      植田遥人,原直,阿部匡伸
    • Organizer
      日本音響学会
    • Related Report
      2022 Research-status Report
  • [Presentation] 口唇特徴量を利用した知識蒸留による舌亜全摘出者の音韻明瞭度改善法の検討2022

    • Author(s)
      高島和嗣,阿部匡伸,原直
    • Organizer
      電子情報通信学会技術研究報告
    • Related Report
      2021 Research-status Report
  • [Remarks] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

    • URL

      https://site-330980-4570-3498.mystrikingly.com/

    • Related Report
      2023 Annual Research Report 2022 Research-status Report 2021 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi