• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Encoder Factorization for Capturing Dialect and Articulation Level in End-to-End Speech Synthesis

研究課題

研究課題/領域番号 19K24372
研究種目

研究活動スタート支援

配分区分基金
審査区分 1002:人間情報学、応用情報学およびその関連分野
研究機関国立情報学研究所

研究代表者

Cooper Erica  国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)

研究期間 (年度) 2019-08-30 – 2021-03-31
研究課題ステータス 完了 (2020年度)
配分額 *注記
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワードSpeech synthesis / Speaker modeling / Deep learning / Neural network / speech synthesis / dialect modeling / speaker similarity / transfer learning / neural networks / speaker modeling / deep learning / articulation
研究開始時の研究の概要

Synthesizing speech in a variety of speaker voices and styles has long been a goal in speech research. Recent advances in speech synthesis have resulted in very natural-sounding synthetic speech. Current approaches to modeling multiple speakers in synthetic speech have resulted in high similarity to the different speakers, but fail to capture characteristics such as dialect and level of articulation. We aim to determine whether including models of dialect and level of articulation in synthetic speech systems can successfully capture these aspects of speech.

研究成果の概要

現在の音声合成技術は自然な音声を生成することが可能であるが、方言など目標話者の特性を完全に再現する事は困難である。本研究では、どの種類の話者埋め込み表現が最も効果的に話者性を再現するかについて調査を行い、Learnable DictionaryEncodingが最もうまく機能することを確認した。 同様の方言埋め込み表現が、合成音声の方言を改善するのに役立つことも確認。 最後に、人工的に作成した学習デ ータと理想的ではない録音条件の音声データの両方を使用したデータ拡張方法についても調査し、これを用いることでモデルから予測された合成音声の自然さがさらに改善することも示した。

研究成果の学術的意義や社会的意義

本課題では、end-to-end音声合成における合成音声の話者性や方言再現性の向上のため、エンコーダの因子を制御する方法を調査した。話者の個性や特性をより適切に再現することにより、より多くの目標話者を音声合成システムにおいて利用することが可能になり、技術の応用先が広がると期待される。

報告書

(3件)
  • 2020 実績報告書   研究成果報告書 ( PDF )
  • 2019 実施状況報告書
  • 研究成果

    (9件)

すべて 2020 その他

すべて 国際共同研究 (2件) 雑誌論文 (3件) (うち国際共著 3件、 査読あり 3件、 オープンアクセス 3件) 備考 (4件)

  • [国際共同研究] Massachusetts Institute of Technology(米国)

    • 関連する報告書
      2020 実績報告書
  • [国際共同研究] Massachusetts Institute of Technology(米国)

    • 関連する報告書
      2019 実施状況報告書
  • [雑誌論文] Can Speaker Augmentation Improve Multi-Speaker End-to-End TTS?2020

    • 著者名/発表者名
      Cooper Erica、Lai Cheng-I、Yasuda Yusuke、Yamagishi Junichi
    • 雑誌名

      Proc. Interspeech 2020

      巻: 2020 ページ: 3979-3983

    • DOI

      10.21437/interspeech.2020-1229

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Modeling of rakugo speech and its limitations: toward speech synthesis that entertains audiences2020

    • 著者名/発表者名
      Shuhei Kato, Yusuke Yasuda, Xin Wang, Erica Cooper, Shinji Takaki, and Junichi Yamagishi
    • 雑誌名

      IEEE Access

      巻: 8 ページ: 138149-138161

    • DOI

      10.1109/access.2020.3011975

    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Zero-Shot Multi-Speaker Text-To-Speech with State-Of-The-Art Neural Speaker Embeddings2020

    • 著者名/発表者名
      Erica Cooper, Cheng-I Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen, Junichi Yamagishi
    • 雑誌名

      ICASSP 2020

      巻: - ページ: 6184-6188

    • DOI

      10.1109/icassp40776.2020.9054535

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [備考] Public code for multi-speaker tacotron

    • URL

      https://github.com/nii-yamagishilab/multi-speaker-tacotron

    • 関連する報告書
      2020 実績報告書
  • [備考] Audio sample page for Interspeech 2020 paper

    • URL

      https://nii-yamagishilab.github.io/samples-multi-speaker-tacotron/augment.html

    • 関連する報告書
      2020 実績報告書
  • [備考] Multi-speaker Tacotron Code

    • URL

      https://github.com/nii-yamagishilab/multi-speaker-tacotron

    • 関連する報告書
      2019 実施状況報告書
  • [備考] Audio Samples for Multi-Speaker Tacotron

    • URL

      https://nii-yamagishilab.github.io/samples-multi-speaker-tacotron/

    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-09-03   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi