研究課題/領域番号 |
21K11951
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (30843156)
|
研究分担者 |
Kruengkrai Canasai 国立情報学研究所, コンテンツ科学研究系, 特任助教 (10895907)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | Text-to-speech synthesis / Low-resource languages / Neural network pruning / Evaluation / text-to-speech synthesis / low-resource languages / speech evaluation / speech synthesis / self-supervised learning / speech assessment / mean opinion score / text-to-speech / vocoder / pruning / efficiency / multi-lingual / machine translation / deep learning / neural networks |
研究開始時の研究の概要 |
Language technology has improved due to advances in neural-network-based approaches; for example, speech synthesis has reached the quality of human speech. However, neural models require large quantities of data. Speech technologies bring social benefits of accessibility and communication - to ensure broad access to these benefits, we consider language-independent methods that can make use of less data. We propose 1) articulatory class based end-to-end speech synthesis; 2) multi-modal machine translation with text and speech; and 3) neural architecture search for data-efficient architectures.
|
研究成果の概要 |
音声合成(TTS)、データ効率の良いTTS、TTS品質予測のためのプルーニングについて検討した。出力品質を低下させることなく、TTSモデルの重みの90%までを刈り込んだ。ポッドキャストデータを用いた低リソース言語のTTSコーパス構築のためのデータ処理を開発し、高品質な一般公開データセットを得た。また、このデータを利用したTTSシステムを開発し、同様のデータを持つあらゆる言語に再利用できるようにした。 新しい言語に微調整できる多言語TTSのための自己教師付き音声表現を研究した。自動TTS評価のための一連のチャレンジを開始し、多くの参加者を集め、この分野を発展させた。
|
研究成果の学術的意義や社会的意義 |
We developed TTS trainable on small amounts of data and lightweight TTS models. We also advanced the field of TTS evaluation. This benefits researchers and society by reducing barriers of entry to creating TTS for low-resource languages, expanding accessibility benefits of TTS to a broader audience.
|