Language-independent, multi-modal, and data-efficient approaches for speech synthesis and translation

研究課題

研究課題/領域番号	21K11951
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	国立情報学研究所
研究代表者	Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (30843156)
研究分担者	Kruengkrai Canasai 国立情報学研究所, コンテンツ科学研究系, 特任助教 (10895907)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	Text-to-speech synthesis / Low-resource languages / Neural network pruning / Evaluation / text-to-speech synthesis / low-resource languages / speech evaluation / speech synthesis / self-supervised learning / speech assessment / mean opinion score / text-to-speech / vocoder / pruning / efficiency / multi-lingual / machine translation / deep learning / neural networks
研究開始時の研究の概要	Language technology has improved due to advances in neural-network-based approaches; for example, speech synthesis has reached the quality of human speech. However, neural models require large quantities of data. Speech technologies bring social benefits of accessibility and communication - to ensure broad access to these benefits, we consider language-independent methods that can make use of less data. We propose 1) articulatory class based end-to-end speech synthesis; 2) multi-modal machine translation with text and speech; and 3) neural architecture search for data-efficient architectures.
研究成果の概要	音声合成(TTS)、データ効率の良いTTS、TTS品質予測のためのプルーニングについて検討した。出力品質を低下させることなく、TTSモデルの重みの90%までを刈り込んだ。ポッドキャストデータを用いた低リソース言語のTTSコーパス構築のためのデータ処理を開発し、高品質な一般公開データセットを得た。また、このデータを利用したTTSシステムを開発し、同様のデータを持つあらゆる言語に再利用できるようにした。新しい言語に微調整できる多言語TTSのための自己教師付き音声表現を研究した。自動TTS評価のための一連のチャレンジを開始し、多くの参加者を集め、この分野を発展させた。
研究成果の学術的意義や社会的意義	We developed TTS trainable on small amounts of data and lightweight TTS models. We also advanced the field of TTS evaluation. This benefits researchers and society by reducing barriers of entry to creating TTS for low-resource languages, expanding accessibility benefits of TTS to a broader audience.

報告書

(4件)

研究成果
(28件)

すべて 2024 2023 2022 その他

すべて国際共同研究 (8件) 雑誌論文 (1件) (うち国際共著 1件、オープンアクセス 1件) 学会発表 (12件) (うち国際学会 9件、招待講演 3件) 備考 (7件)

[国際共同研究] up.ai(イスラエル)
- 関連する報告書
  2023 実績報告書
[国際共同研究] University of Edinburgh(英国)
- 関連する報告書
  2023 実績報告書
[国際共同研究] Academia Sinica(その他の国・地域 Taiwan)
- 関連する報告書
  2023 実績報告書
[国際共同研究] National Research Council(カナダ)
- 関連する報告書
  2023 実績報告書
[国際共同研究] Academia Sinica(その他の国・地域 Taiwan)
- 関連する報告書
  2022 実施状況報告書
[国際共同研究] National Research Council(カナダ)
- 関連する報告書
  2022 実施状況報告書
[国際共同研究] University of Edinburgh(英国)
- 関連する報告書
  2022 実施状況報告書
[国際共同研究] Massachusetts Institute of Technology/MIT-IBM Watson AI Lab(米国)
- 関連する報告書
  2021 実施状況報告書
[雑誌論文] A review on subjective and objective evaluation of synthetic speech2024
- 著者名/発表者名
  Cooper Erica、Huang Wen-Chin、Tsao Yu、Wang Hsin-Min、Toda Tomoki、Yamagishi Junichi
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 45 号: 4 ページ: 161-183
- DOI
  10.1250/ast.e24.12
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2024-07-01
- 関連する報告書
  2023 実績報告書
- オープンアクセス / 国際共著
[学会発表] Uncertainty as a Predictor: Leveraging Self-Supervised Learning for Zero-Shot MOS Prediction2024
- 著者名/発表者名
  Aditya Ravuri, Erica Cooper, Junichi Yamagishi
- 学会等名
  IEEE ICASSP 2024 workshop on Self-supervision in Audio, Speech and Beyond
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] SASPEECH: A Hebrew Single Speaker Dataset for Text to Speech and Voice Conversion2023
- 著者名/発表者名
  Orian Sharoni, Roee Shenberg, Erica Cooper
- 学会等名
  Interspeech 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech2023
- 著者名/発表者名
  Erica Cooper, Junichi Yamagishi
- 学会等名
  Interspeech 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Partial Rank Similarity Minimization Method for Quality MOS Prediction of Unseen Speech Synthesis Systems in Zero-Shot and Semi-supervised setting2023
- 著者名/発表者名
  Hemant Yadav, Erica Cooper, Junichi Yamagishi, Sunayana Sitaram, Rajiv Ratn Shah
- 学会等名
  ASRU 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] The VoiceMOS Challenge 2023: Zero-shot Subjective Speech Quality Prediction for Multiple Domains2023
- 著者名/発表者名
  Erica Cooper, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi
- 学会等名
  ASRU 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Generalization Ability of MOS Prediction Networks2022
- 著者名/発表者名
  Erica Cooper, Wen-Chin Huang, Tomoki Toda, Junichi Yamagishi
- 学会等名
  ICASSP 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech2022
- 著者名/発表者名
  Wen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda
- 学会等名
  ICASSP 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] The VoiceMOS Challenge 20222022
- 著者名/発表者名
  Wen-Chin Huang, Erica Cooper, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi
- 学会等名
  Interspeech 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] The VoiceMOS Challenge: Data-Driven Mean Opinion Score Prediction for Synthesized Speech2022
- 著者名/発表者名
  Erica Cooper
- 学会等名
  2022 Autumn Meeting of the Acoustical Society of Japan
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] Objective Evaluation in TTS2022
- 著者名/発表者名
  Erica Cooper
- 学会等名
  KTH Seminar on Speech Synthesis Evaluation, KTH Royal Institute of Technology, Department of Speech, Music, and Hearing
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] The VoiceMOS Challenge 20222022
- 著者名/発表者名
  Erica Cooper, Wen-Chin Huang
- 学会等名
  Special Interest Group on Spoken Language Processing, Information Processing Society of Japan
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis2022
- 著者名/発表者名
  Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David Cox, James Glass
- 学会等名
  ICASSP 2022
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[備考] SASPEECH: Hebrew speech and transcripts for TTS
- URL
  https://openslr.org/134/
- 関連する報告書
  2023 実績報告書
[備考] Listening test data for "Range-Equalizing Bias"
- URL
  https://zenodo.org/records/10005796
- 関連する報告書
  2023 実績報告書
[備考] Implementation of Partial Rank Similarity
- URL
  https://github.com/nii-yamagishilab/partial_rank_similarity
- 関連する報告書
  2023 実績報告書
[備考] VoiceMOS Challenge 2023 Homepage
- URL
  https://voicemos-challenge-2023.github.io
- 関連する報告書
  2023 実績報告書
[備考] The VoiceMOS Challenge 2022 website
- URL
  https://voicemos-challenge-2022.github.io
- 関連する報告書
  2022 実施状況報告書
[備考] Open-source code for SSL-based MOS predictor
- URL
  https://github.com/nii-yamagishilab/mos-finetune-ssl
- 関連する報告書
  2022 実施状況報告書
[備考] TTS Pruning
- URL
  https://people.csail.mit.edu/clai24/prune-tts/
- 関連する報告書
  2021 実施状況報告書

Language-independent, multi-modal, and data-efficient approaches for speech synthesis and translation

研究代表者

Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (30843156)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[国際共同研究] up.ai(イスラエル)

関連する報告書

[国際共同研究] University of Edinburgh(英国)

関連する報告書

[国際共同研究] Academia Sinica(その他の国・地域 Taiwan)

関連する報告書

[国際共同研究] National Research Council(カナダ)

関連する報告書

[国際共同研究] Academia Sinica(その他の国・地域 Taiwan)

関連する報告書

[国際共同研究] National Research Council(カナダ)

関連する報告書

[国際共同研究] University of Edinburgh(英国)

関連する報告書

[国際共同研究] Massachusetts Institute of Technology/MIT-IBM Watson AI Lab(米国)

関連する報告書

[雑誌論文] A review on subjective and objective evaluation of synthetic speech2024

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] Uncertainty as a Predictor: Leveraging Self-Supervised Learning for Zero-Shot MOS Prediction2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] SASPEECH: A Hebrew Single Speaker Dataset for Text to Speech and Voice Conversion2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Partial Rank Similarity Minimization Method for Quality MOS Prediction of Unseen Speech Synthesis Systems in Zero-Shot and Semi-supervised setting2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] The VoiceMOS Challenge 2023: Zero-shot Subjective Speech Quality Prediction for Multiple Domains2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Generalization Ability of MOS Prediction Networks2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] The VoiceMOS Challenge 20222022

著者名/発表者名

学会等名

関連する報告書

[学会発表] The VoiceMOS Challenge: Data-Driven Mean Opinion Score Prediction for Synthesized Speech2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Objective Evaluation in TTS2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] The VoiceMOS Challenge 20222022

著者名/発表者名

学会等名

関連する報告書

[学会発表] On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis2022

著者名/発表者名

学会等名

関連する報告書

[備考] SASPEECH: Hebrew speech and transcripts for TTS

URL

関連する報告書