• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Language-independent, multi-modal, and data-efficient approaches for speech synthesis and translation

研究課題

研究課題/領域番号 21K11951
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61010:知覚情報処理関連
研究機関国立情報学研究所

研究代表者

Cooper Erica  国立情報学研究所, コンテンツ科学研究系, 特任准教授 (30843156)

研究分担者 Kruengkrai Canasai  国立情報学研究所, コンテンツ科学研究系, 特任助教 (10895907)
研究期間 (年度) 2021-04-01 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワードText-to-speech synthesis / Low-resource languages / Neural network pruning / Evaluation / text-to-speech synthesis / low-resource languages / speech evaluation / speech synthesis / self-supervised learning / speech assessment / mean opinion score / text-to-speech / vocoder / pruning / efficiency / multi-lingual / machine translation / deep learning / neural networks
研究開始時の研究の概要

Language technology has improved due to advances in neural-network-based approaches; for example, speech synthesis has reached the quality of human speech. However, neural models require large quantities of data. Speech technologies bring social benefits of accessibility and communication - to ensure broad access to these benefits, we consider language-independent methods that can make use of less data. We propose 1) articulatory class based end-to-end speech synthesis; 2) multi-modal machine translation with text and speech; and 3) neural architecture search for data-efficient architectures.

研究成果の概要

音声合成(TTS)、データ効率の良いTTS、TTS品質予測のためのプルーニングについて検討した。出力品質を低下させることなく、TTSモデルの重みの90%までを刈り込んだ。ポッドキャストデータを用いた低リソース言語のTTSコーパス構築のためのデータ処理を開発し、高品質な一般公開データセットを得た。また、このデータを利用したTTSシステムを開発し、同様のデータを持つあらゆる言語に再利用できるようにした。 新しい言語に微調整できる多言語TTSのための自己教師付き音声表現を研究した。自動TTS評価のための一連のチャレンジを開始し、多くの参加者を集め、この分野を発展させた。

研究成果の学術的意義や社会的意義

We developed TTS trainable on small amounts of data and lightweight TTS models. We also advanced the field of TTS evaluation. This benefits researchers and society by reducing barriers of entry to creating TTS for low-resource languages, expanding accessibility benefits of TTS to a broader audience.

報告書

(4件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (28件)

すべて 2024 2023 2022 その他

すべて 国際共同研究 (8件) 雑誌論文 (1件) (うち国際共著 1件、 オープンアクセス 1件) 学会発表 (12件) (うち国際学会 9件、 招待講演 3件) 備考 (7件)

  • [国際共同研究] up.ai(イスラエル)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] University of Edinburgh(英国)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] Academia Sinica(その他の国・地域 Taiwan)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] National Research Council(カナダ)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] Academia Sinica(その他の国・地域 Taiwan)

    • 関連する報告書
      2022 実施状況報告書
  • [国際共同研究] National Research Council(カナダ)

    • 関連する報告書
      2022 実施状況報告書
  • [国際共同研究] University of Edinburgh(英国)

    • 関連する報告書
      2022 実施状況報告書
  • [国際共同研究] Massachusetts Institute of Technology/MIT-IBM Watson AI Lab(米国)

    • 関連する報告書
      2021 実施状況報告書
  • [雑誌論文] A review on subjective and objective evaluation of synthetic speech2024

    • 著者名/発表者名
      Cooper Erica、Huang Wen-Chin、Tsao Yu、Wang Hsin-Min、Toda Tomoki、Yamagishi Junichi
    • 雑誌名

      Acoustical Science and Technology

      巻: 45 号: 4 ページ: 161-183

    • DOI

      10.1250/ast.e24.12

    • ISSN
      0369-4232, 1346-3969, 1347-5177
    • 年月日
      2024-07-01
    • 関連する報告書
      2023 実績報告書
    • オープンアクセス / 国際共著
  • [学会発表] Uncertainty as a Predictor: Leveraging Self-Supervised Learning for Zero-Shot MOS Prediction2024

    • 著者名/発表者名
      Aditya Ravuri, Erica Cooper, Junichi Yamagishi
    • 学会等名
      IEEE ICASSP 2024 workshop on Self-supervision in Audio, Speech and Beyond
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] SASPEECH: A Hebrew Single Speaker Dataset for Text to Speech and Voice Conversion2023

    • 著者名/発表者名
      Orian Sharoni, Roee Shenberg, Erica Cooper
    • 学会等名
      Interspeech 2023
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech2023

    • 著者名/発表者名
      Erica Cooper, Junichi Yamagishi
    • 学会等名
      Interspeech 2023
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Partial Rank Similarity Minimization Method for Quality MOS Prediction of Unseen Speech Synthesis Systems in Zero-Shot and Semi-supervised setting2023

    • 著者名/発表者名
      Hemant Yadav, Erica Cooper, Junichi Yamagishi, Sunayana Sitaram, Rajiv Ratn Shah
    • 学会等名
      ASRU 2023
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] The VoiceMOS Challenge 2023: Zero-shot Subjective Speech Quality Prediction for Multiple Domains2023

    • 著者名/発表者名
      Erica Cooper, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi
    • 学会等名
      ASRU 2023
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Generalization Ability of MOS Prediction Networks2022

    • 著者名/発表者名
      Erica Cooper, Wen-Chin Huang, Tomoki Toda, Junichi Yamagishi
    • 学会等名
      ICASSP 2022
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech2022

    • 著者名/発表者名
      Wen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda
    • 学会等名
      ICASSP 2022
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] The VoiceMOS Challenge 20222022

    • 著者名/発表者名
      Wen-Chin Huang, Erica Cooper, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi
    • 学会等名
      Interspeech 2022
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] The VoiceMOS Challenge: Data-Driven Mean Opinion Score Prediction for Synthesized Speech2022

    • 著者名/発表者名
      Erica Cooper
    • 学会等名
      2022 Autumn Meeting of the Acoustical Society of Japan
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] Objective Evaluation in TTS2022

    • 著者名/発表者名
      Erica Cooper
    • 学会等名
      KTH Seminar on Speech Synthesis Evaluation, KTH Royal Institute of Technology, Department of Speech, Music, and Hearing
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] The VoiceMOS Challenge 20222022

    • 著者名/発表者名
      Erica Cooper, Wen-Chin Huang
    • 学会等名
      Special Interest Group on Spoken Language Processing, Information Processing Society of Japan
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis2022

    • 著者名/発表者名
      Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David Cox, James Glass
    • 学会等名
      ICASSP 2022
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会
  • [備考] SASPEECH: Hebrew speech and transcripts for TTS

    • URL

      https://openslr.org/134/

    • 関連する報告書
      2023 実績報告書
  • [備考] Listening test data for "Range-Equalizing Bias"

    • URL

      https://zenodo.org/records/10005796

    • 関連する報告書
      2023 実績報告書
  • [備考] Implementation of Partial Rank Similarity

    • URL

      https://github.com/nii-yamagishilab/partial_rank_similarity

    • 関連する報告書
      2023 実績報告書
  • [備考] VoiceMOS Challenge 2023 Homepage

    • URL

      https://voicemos-challenge-2023.github.io

    • 関連する報告書
      2023 実績報告書
  • [備考] The VoiceMOS Challenge 2022 website

    • URL

      https://voicemos-challenge-2022.github.io

    • 関連する報告書
      2022 実施状況報告書
  • [備考] Open-source code for SSL-based MOS predictor

    • URL

      https://github.com/nii-yamagishilab/mos-finetune-ssl

    • 関連する報告書
      2022 実施状況報告書
  • [備考] TTS Pruning

    • URL

      https://people.csail.mit.edu/clai24/prune-tts/

    • 関連する報告書
      2021 実施状況報告書

URL: 

公開日: 2021-04-28   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi