2019 年度実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究課題

研究課題/領域番号	17H04687
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声合成 / デジタルクローン / ディープラーニング / 話者適応
研究実績の概要	話者適応は音声合成を応用した「声のデジタルクローン技術」である。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする頑健な話者適応手法、及び、教師なし話者適応手法を実現することが目的である。これまでに、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。また、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelという新たなニューラル波形モデルを提案した。本年度は、劣環境で収録された音声を学習データとして利用した「話者エンコーダ」を組み込んだニューラルネットワーク音声合成方式を新たに提案し、教師なし話者適応を劣環境で収録した音声からでも実現できることを示した。また、合成音声の品質も向上させるため、ニューラル波形モデルの改良も鋭意行い、Neural Harmonic-plus-Noise Waveform Modelなど改良版を提案した。さらに、声のデジタルクローン技術を実データに対しても適用し、その有効性を検討すると同時に新たな応用例も模索した。具体的には、落語実演を収録した音声に対して、前述の話者エンコーダを組み込んだなニューラルネットワーク音声合成方式およびニューラル波形モデルを適用することで、噺家が使い分ける様々な役を再現する落語音声合成が実現できることを示した。
現在までの達成度 (段落)	令和元年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和元年度が最終年度であるため、記入しない。

研究成果

(16件)

すべて 2020 2019 その他

すべて国際共同研究 (3件) 雑誌論文 (9件) (うち国際共著 3件、査読あり 9件、オープンアクセス 9件) 学会発表 (4件) (うち国際学会 1件、招待講演 2件)

[国際共同研究] National University of Singapore(シンガポール)
- 国名
  シンガポール
- 外国機関名
  National University of Singapore
[国際共同研究] Aalto university(フィンランド)
- 国名
  フィンランド
- 外国機関名
  Aalto university
[国際共同研究] MIT/JHU(米国)
- 国名
  米国
- 外国機関名
  MIT/JHU
[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020
- 著者名/発表者名
  X. Wang, S. Takaki and J. Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 402-415
- DOI
  https://doi.org/10.1109/TASLP.2019.2956145
- 査読あり / オープンアクセス
[雑誌論文] Zero-Shot Multi-Speaker Text-To-Speech with State-of-the-art Neural Speaker Embeddings2020
- 著者名/発表者名
  Erica Cooper, Cheng-I Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen, Junichi Yamagishi
- 雑誌名
  
  2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  巻: - ページ: 6184-6188
- DOI
  https://doi.org/10.1109/ICASSP40776.2020.9054535
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Effect of Choice of Probability Distribution, Randomness, and Search Methods for Alignment Modeling in Sequence-to-Sequence Text-to-Speech Synthesis Using Hard Alignment2020
- 著者名/発表者名
  Y. Yasuda, X. Wang and J. Yamagishi
- 雑誌名
  
  2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  巻: - ページ: 6724-6728
- DOI
  https://doi.org/10.1109/ICASSP40776.2020.9053546
- 査読あり / オープンアクセス
[雑誌論文] Joint Training Framework for Text-to-Speech and Voice Conversion Using Multi-Source Tacotron and WaveNet2019
- 著者名/発表者名
  Mingyang Zhang, Xin Wang, Fuming Fang, Haizhou Li, Junichi Yamagishi
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 1298-1302
- DOI
  http://dx.doi.org/10.21437/Interspeech.2019-1357
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-Spectrogram2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 694-698
- DOI
  http://dx.doi.org/10.21437/Interspeech.2019-2008
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] l Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019
- 著者名/発表者名
  Xin Wang, Junichi Yamagishi
- 雑誌名
  
  Proc. 10th ISCA Speech Synthesis Workshop
  
  巻: - ページ: 1-6
- DOI
  http://dx.doi.org/10.21437/SSW.2019-1
- 査読あり / オープンアクセス
[雑誌論文] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Junichi Yamagishi
- 雑誌名
  
  Proc. 10th ISCA Speech Synthesis Workshop
  
  巻: - ページ: 211-216
- DOI
  http://dx.doi.org/10.21437/SSW.2019-38
- 査読あり / オープンアクセス
[雑誌論文] Rakugo speech synthesis using segment-to-segment neural transduction and style tokens ― toward speech synthesis for entertaining audiences2019
- 著者名/発表者名
  Shuhei Kato, Yusuke Yasuda, Xin Wang, Erica Cooper, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Proc. 10th ISCA Speech Synthesis Workshop
  
  巻: - ページ: 111-116
- DOI
  http://dx.doi.org/10.21437/SSW.2019-20
- 査読あり / オープンアクセス
[雑誌論文] Bootstrapping Non-Parallel Voice Conversion from Speaker-Adaptive Text-to-Speech2019
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
  
  巻: - ページ: 200-207
- DOI
  https://doi.org/10.1109/ASRU46091.2019.9004008
- 査読あり / オープンアクセス
[学会発表] 音声の個人性に関する多角的研究2019
- 著者名/発表者名
  山岸順一
- 学会等名
  日本音響学会2019年秋季研究発表会
- 招待講演
[学会発表] 落語音声合成モデルの頑健な学習方法と発話様式の変動への対処2019
- 著者名/発表者名
  加藤集平, 安田裕介, Xin Wang, Erica Cooper, 高木信二, 山岸順一
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] ソフトアテンションを使用しないエンドツーエンド音声合成の初期検討2019
- 著者名/発表者名
  安田裕介, 山岸順一, Xin Wang
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Speaker Identity Cloning and Protection2019
- 著者名/発表者名
  Junichi Yamagishi
- 学会等名
  AFEKA SPEECH PROCESSING CONFERENCE 2019: 10-YEAR ANNIVERSARY CONFERENCE
- 国際学会 / 招待講演

2019 年度 実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)

研究成果

[国際共同研究] National University of Singapore(シンガポール)

国名

外国機関名

[国際共同研究] Aalto university(フィンランド)

国名

外国機関名

[国際共同研究] MIT/JHU(米国)

国名

外国機関名

[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Zero-Shot Multi-Speaker Text-To-Speech with State-of-the-art Neural Speaker Embeddings2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Effect of Choice of Probability Distribution, Randomness, and Search Methods for Alignment Modeling in Sequence-to-Sequence Text-to-Speech Synthesis Using Hard Alignment2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Joint Training Framework for Text-to-Speech and Voice Conversion Using Multi-Source Tacotron and WaveNet2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-Spectrogram2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] l Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Rakugo speech synthesis using segment-to-segment neural transduction and style tokens ― toward speech synthesis for entertaining audiences2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Bootstrapping Non-Parallel Voice Conversion from Speaker-Adaptive Text-to-Speech2019

著者名/発表者名

雑誌名

DOI

[学会発表] 音声の個人性に関する多角的研究2019

著者名/発表者名

学会等名

[学会発表] 落語音声合成モデルの頑健な学習方法と発話様式の変動への対処2019

著者名/発表者名

学会等名

[学会発表] ソフトアテンションを使用しないエンドツーエンド音声合成の初期検討2019

著者名/発表者名

学会等名

[学会発表] Speaker Identity Cloning and Protection2019

著者名/発表者名

学会等名

2019 年度実績報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)