2017 年度実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究課題

研究課題/領域番号	17H04687
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声合成 / ディープラーニング / デジタルクローン / 話者適応
研究実績の概要	話者適応は音声合成を応用した「声のデジタルクローン技術」であり、音声の障害者応用で著しい成功を納めている。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。とりわけ、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする、ディープラーニングによる話者適応、及び、教師なし話者適応手法を実現することが目的である。この音声合成の品質劣化は、雑音や反響音だけでなく、収録の際に利用される収録機器によっても起きる。大量生産されているスマートフォンに搭載されているマイクロフォンは、通常収録スタジオで利用される高価なマイクロフォンに比べ、収録可能周波数領域や感度が大きく異なり、いわゆる「安っぽい」音になる。またマイクロフォンと口の間の距離もより離れたものになることから、近接効果が薄れ、低周波数域を正しく録ることができない。平成29年度は、この様な安価だが手軽な機材により収録された音声の特徴を、あたかも高価なマイクでスタジオ収録したかの様な高品質音声へ自動変換することを目標に、スタジオ収録された高品質な音声をスピーカで再生し、種々の安価だが手軽に利用可能な機器により再収録することで、低品質音声と元の高品質音声が対となったパラレルデータベース「DR-VCTK」を構築した。また、このデータベースをもとに、安価な機器により収録された音声をより高品質な音声へ変換するニューラルネットワークを学習し、さらに音声合成システムを構築するということも行い、研究発表やジャーナル論文の投稿を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由低品質音声と元の高品質音声が対となったパラレルデータベース「DR-VCTK」を構築およびそれを利用したディープラーニングだけでなく、声を目標話者へリアルタイムに変換する技術「声質変換」を競うThe Voice Conversion Challenge 2018も開催し、多くの参加者を得ることができた。またThe Voice Conversion Challenge 2018を通して、声質変換分野全体の加速を行うことができた。
今後の研究の推進方策	今後は、音声のデジタルクローン技術のさらに利便性を向上せるための研究を邁進する。通常、音声合成では、音素等のバランスや頻度を考慮して人工的に作成された「音素バランス文」を読み上げた音声を利用する。しかしながら、故人の声をデジタルクローンにより再現するという様な応用を考えた場合、新たに読み上げ音声を収録するという選択肢は無く、収録済みの会話や対話音声といった必ずしもテキストデータが付随しない音声データにより音声合成システムを構築する必要がある。平成30年度はこの教師なし話者適応手法の研究を邁進し、また上記低品質音声を変換する技術とも組み合わせ、より手軽に声のデジタルクローンが実現できることを目指す。

研究成果
(35件)

すべて 2018 2017 その他

すべて国際共同研究 (6件) 雑誌論文 (17件) (うち国際共著 9件、査読あり 17件、オープンアクセス 16件) 学会発表 (12件) (うち招待講演 1件)

[国際共同研究] エジンバラ大学(英国)
- 国名
  英国
- 外国機関名
  エジンバラ大学
[国際共同研究] アルト大学/東フィンランド大学(フィンランド)
- 国名
  フィンランド
- 外国機関名
  アルト大学/東フィンランド大学
[国際共同研究] Oben(米国)
- 国名
  米国
- 外国機関名
  Oben
[国際共同研究] 中国科学技術大学(中国)
- 国名
  中国
- 外国機関名
  中国科学技術大学
[国際共同研究] Austrian Academy of Sciences/Austrian Research Institute for AI/University of Applied Sciences(オーストリア)
- 国名
  オーストリア
- 外国機関名
  Austrian Academy of Sciences/Austrian Research Institute for AI/University of Applied Sciences
- 他の機関数
  2
[国際共同研究]
- 他の国数
  5
[雑誌論文] Speech Enhancement of Noisy and Reverberant Speech for Text-to-Speech2018
- 著者名/発表者名
  Cassia Valentini-Botinhao, Junichi Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 8 ページ: 印刷中
- DOI
  https://doi.org/10.1109/TASLP.2018.2828980
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Autoregressive neural F0 model for statistical parametric speech synthesis2018
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 8 ページ: 印刷中
- DOI
  https://doi.org/10.1109/TASLP.2018.2828650
- 査読あり / オープンアクセス
[雑誌論文] A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment2018
- 著者名/発表者名
  Tomi Kinnunen, Jaime Lorenzo-Trueba, Junichi Yamagishi, Tomoki Toda, Daisuke Saito, Fernando Villavicencio and Zhenhua Ling
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Junichi Yamagishi, Tomoki Toda, Daisuke Saito, Fernando Villavicencio, Tomi Kinnunen and Zhenhua Ling
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Can we steal your vocal identity from the Internet?: Initial investigation of cloning Obama’s voice using GAN, WaveNet and low-quality found data2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Fuming Fang, Xin Wang, Isao Echizen, Junichi Yamagishi and Tomi Kinnunen
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] HIGH-QUALITY NONPARALLEL VOICE CONVERSION BASED ON CYCLE-CONSISTENT ADVERSARIAL NETWORK2018
- 著者名/発表者名
  Fuming Fang, Junichi Yamagishi, Isao Echizen, Jaime Lorenzo-Trueba
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 5279-5283
- 査読あり / オープンアクセス
[雑誌論文] CYBORG SPEECH: DEEP MULTILINGUAL SPEECH SYNTHESIS FOR GENERATING SEGMENTAL FOREIGN ACCENT WITH NATURAL PROSODY2018
- 著者名/発表者名
  Gustav Eje Henter, Jaime Lorenzo-Trueba, Xin Wang, Mariko Kondo, Junichi Yamagishi
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 4799-4803
- 査読あり / オープンアクセス
[雑誌論文] SPEECH WAVEFORM SYNTHESIS FROM MFCC SEQUENCES WITH GENERATIVE ADVERSARIAL NETWORKS2018
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Xin Wang, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 5679-5683
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS2018
- 著者名/発表者名
  A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 4804-4808
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Investigating very deep highway networks for parametric speech synthesis2018
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Speech Communication
  
  巻: 96 ページ: 1-9
- DOI
  https://doi.org/10.1016/j.specom.2017.11.002
- 査読あり / オープンアクセス
[雑誌論文] Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices2017
- 著者名/発表者名
  Michael Pucher, Bettina Zillinger, Markus Toman, Junichi Yamagishi, Erich Schmid, Cassia Valentini-Botinhao, Dietmar Schabus, Thomas Woltron
- 雑誌名
  
  Computer Speech & Language
  
  巻: 46 ページ: 179-195
- DOI
  http://dx.doi.org/10.1016/j.csl.2017.05.010
- 査読あり / 国際共著
[雑誌論文] An RNN-based Quantized F0 Model with Multi-tier Feedback Links forText-to-Speech Synthesis2017
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1059-1063
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-246
- 査読あり / オープンアクセス
[雑誌論文] Direct modeling of frequency spectra and waveform generationbased on phase recovery for DNN-based speech synthesis2017
- 著者名/発表者名
  Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1128-1132
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-488
- 査読あり / オープンアクセス
[雑誌論文] Complex-valued restricted Boltzmann machine for direct learning of frequency spectra2017
- 著者名/発表者名
  Toru Nakashika, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 4021-4025
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-584
- 査読あり / オープンアクセス
[雑誌論文] Reducing mismatch in training of DNN-based glottal excitation models in a statistical parametric text-to-speech system2017
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1368-1372
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-848
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Generative Adversarial Network-based Postfilter for STFT Spectrograms2017
- 著者名/発表者名
  Takuhiro Kaneko, Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 3389-3393
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-962
- 査読あり / オープンアクセス
[雑誌論文] Learning word vector representations based on acoustic counts2017
- 著者名/発表者名
  M. Sam Ribeiro, Oliver Watts, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 799-803
- DOI
  http://dx.doi.org/10.21437/Interspeech.2017-1340
- 査読あり / オープンアクセス / 国際共著
[学会発表] Investigation of WaveNet for Text-to-Speech Synthesis2018
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
[学会発表] Stealing your vocal identity from the internet: cloning Obama's voice from found data using GAN and Wavenet2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Xin Wang, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
[学会発表] Generating segment-level foreign-accented synthetic speech with natural speech prosody2018
- 著者名/発表者名
  Gustav Henter, Jaime Lorenzo-Trueba, Xin Wang, Kondo Mariko, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
[学会発表] リカレント構造を持つ複素制限ボルツマンマシンによる複素スペクトル系列モデリング2018
- 著者名/発表者名
  中鹿亘, 高木信二, 山岸順一
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
[学会発表] CycleGANを用いたクロスリンガル声質変換2018
- 著者名/発表者名
  房福明, Jaime Lorenzo- Trueba, 山岸順一, 越前功
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
[学会発表] CycleGANを用いた高品質なノンパラレル声質変換2017
- 著者名/発表者名
  房福明, 山岸順一, 越前功
- 学会等名
  第19回音声言語シンポジウム
[学会発表] Analyzing the impact of including listener perception annotations in RNN-based emotional speech synthesis2017
- 著者名/発表者名
  Jaime Lorenzo-Trueba・Gustav Henter・Shinji Takaki・Junichi Yamagishi
- 学会等名
  第19回音声言語シンポジウム
[学会発表] ASVspoof: 話者照合における生体検知2017
- 著者名/発表者名
  山岸順一
- 学会等名
  第7回バイオメトリクスと認識・認証シンポジウム
- 招待講演
[学会発表] 複素RBMを用いた音声スペクトルモデリングの改良と評価2017
- 著者名/発表者名
  中鹿亘，高木信二，山岸順一
- 学会等名
  日本音響学会2017年秋季研究発表会
[学会発表] Autoregressive quantized F0 modeling using a recurrent neural network with feedback links2017
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2017年8月音声研究会
[学会発表] 複素RBM：制限ボルツマンマシンの複素数拡張と音声信号への応用と評価2017
- 著者名/発表者名
  中鹿亘，高木信二，山岸順一
- 学会等名
  第117回音声言語情報処理研究会
[学会発表] 敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング2017
- 著者名/発表者名
  金子卓弘, 高木信二, 亀岡弘和, 山岸順一
- 学会等名
  2017年6月度音声研究会

2017 年度 実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] エジンバラ大学(英国)

国名

外国機関名

[国際共同研究] アルト大学/東フィンランド大学(フィンランド)

国名

外国機関名

[国際共同研究] Oben(米国)

国名

外国機関名

[国際共同研究] 中国科学技術大学(中国)

国名

外国機関名

[国際共同研究] Austrian Academy of Sciences/Austrian Research Institute for AI/University of Applied Sciences(オーストリア)

国名

外国機関名

他の機関数

[国際共同研究]

他の国数

[雑誌論文] Speech Enhancement of Noisy and Reverberant Speech for Text-to-Speech2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Autoregressive neural F0 model for statistical parametric speech synthesis2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment2018

著者名/発表者名

雑誌名

[雑誌論文] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods2018

著者名/発表者名

雑誌名

[雑誌論文] Can we steal your vocal identity from the Internet?: Initial investigation of cloning Obama’s voice using GAN, WaveNet and low-quality found data2018

著者名/発表者名

雑誌名

[雑誌論文] HIGH-QUALITY NONPARALLEL VOICE CONVERSION BASED ON CYCLE-CONSISTENT ADVERSARIAL NETWORK2018

著者名/発表者名

雑誌名

[雑誌論文] CYBORG SPEECH: DEEP MULTILINGUAL SPEECH SYNTHESIS FOR GENERATING SEGMENTAL FOREIGN ACCENT WITH NATURAL PROSODY2018

著者名/発表者名

雑誌名

[雑誌論文] SPEECH WAVEFORM SYNTHESIS FROM MFCC SEQUENCES WITH GENERATIVE ADVERSARIAL NETWORKS2018

著者名/発表者名

雑誌名

[雑誌論文] A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS2018

著者名/発表者名

雑誌名

[雑誌論文] Investigating very deep highway networks for parametric speech synthesis2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] An RNN-based Quantized F0 Model with Multi-tier Feedback Links forText-to-Speech Synthesis2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] Direct modeling of frequency spectra and waveform generationbased on phase recovery for DNN-based speech synthesis2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] Complex-valued restricted Boltzmann machine for direct learning of frequency spectra2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] Reducing mismatch in training of DNN-based glottal excitation models in a statistical parametric text-to-speech system2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] Generative Adversarial Network-based Postfilter for STFT Spectrograms2017

著者名/発表者名

2017 年度実績報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)