劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究課題

研究課題/領域番号	17H04687
研究種目	若手研究(A)
配分区分	補助金
研究分野	知覚情報処理
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
研究期間 (年度)	2017-04-01 – 2020-03-31
研究課題ステータス	完了 (2019年度)
配分額 *注記	21,710千円 (直接経費: 16,700千円、間接経費: 5,010千円) 2019年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2018年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円) 2017年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
キーワード	音声情報処理 / 音声合成 / 深層学習 / 話者適応 / 音声強調 / デジタルクローン / ディープラーニング
研究成果の概要	話者適応は音声合成を応用した声のデジタルクローン技術である。本研究は音声合成用途以外の劣環境で収録された音声を対象とすべく、必要な要素技術を新たに提案し、データベースも構築した。まず低品質音声と元の高品質音声が対となったパラレルデータベースDR-VCTKを構築した。そしてテキストデータが付随しない音声信号からでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットを提案した。さらに劣環境下の音声を元に学習した話者エンコーダを組み込んだ新たなニューラルネットワークも提案し、教師なし話者適応を劣環境下の音声からでも行えることを示した。
研究成果の学術的意義や社会的意義	音声合成用音響モデルの学習は、通常、スタジオ収録した高品質音声のみを対象にする。それゆえ、雑音・反響音を含む音声もしくは低品質収録器材により収録された音声に基づき音声合成を行うことは容易ではなく、研究理論に至っては全く構築されていないと言って良い状況であった。本研究は既存技術の制約を取り払い、劣悪条件や正解ラベルがないと言った環境においても、声のデジタルクローンを可能にするした。それゆえ、音声合成および話者適応技術を理論的により熟成させたという学術的意義を持つ。また、音声合成および話者適応技術の応用先が爆発的に増えると予想され、社会的意義も大きい。

報告書

(4件)

研究成果
(76件)

すべて 2020 2019 2018 2017 その他

すべて国際共同研究 (11件) 雑誌論文 (39件) (うち国際共著 20件、査読あり 39件、オープンアクセス 37件) 学会発表 (26件) (うち国際学会 11件、招待講演 3件)

[国際共同研究] National University of Singapore(シンガポール)
- 関連する報告書
  2019 実績報告書
[国際共同研究] Aalto university(フィンランド)
- 関連する報告書
  2019 実績報告書
[国際共同研究] MIT/JHU(米国)
- 関連する報告書
  2019 実績報告書
[国際共同研究] Aalto university(フィンランド)
- 関連する報告書
  2018 実績報告書
[国際共同研究] Polytechnic University of Catalonia(スペイン)
- 関連する報告書
  2018 実績報告書
[国際共同研究] エジンバラ大学(英国)
- 関連する報告書
  2017 実績報告書
[国際共同研究] アルト大学/東フィンランド大学(フィンランド)
- 関連する報告書
  2017 実績報告書
[国際共同研究] Oben(米国)
- 関連する報告書
  2017 実績報告書
[国際共同研究] 中国科学技術大学(中国)
- 関連する報告書
  2017 実績報告書
[国際共同研究] Austrian Academy of Sciences/Austrian Research Institute for AI/University of Applied Sciences(オーストリア)
- 関連する報告書
  2017 実績報告書
[国際共同研究]
- 関連する報告書
  2017 実績報告書
[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020
- 著者名/発表者名
  Wang Xin、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 402-415
- DOI
  10.1109/taslp.2019.2956145
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Zero-Shot Multi-Speaker Text-To-Speech with State-Of-The-Art Neural Speaker Embeddings2020
- 著者名/発表者名
  Erica Cooper, Cheng-I Lai, Yusuke Yasuda, Fuming Fang, Xin Wang, Nanxin Chen, Junichi Yamagishi
- 雑誌名
  
  ICASSP 2020
  
  巻: - ページ: 6184-6188
- DOI
  10.1109/icassp40776.2020.9054535
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Effect of Choice of Probability Distribution, Randomness, and Search Methods for Alignment Modeling in Sequence-to-Sequence Text-to-Speech Synthesis Using Hard Alignment2020
- 著者名/発表者名
  Y. Yasuda, X. Wang and J. Yamagishi
- 雑誌名
  
  2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  巻: - ページ: 6724-6728
- DOI
  10.1109/icassp40776.2020.9053546
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Joint Training Framework for Text-to-Speech and Voice Conversion Using Multi-Source Tacotron and WaveNet2019
- 著者名/発表者名
  Mingyang Zhang, Xin Wang, Fuming Fang, Haizhou Li, Junichi Yamagishi
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 1298-1302
- DOI
  10.21437/interspeech.2019-1357
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-Spectrogram2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Proc. Interspeech 2019
  
  巻: - ページ: 694-698
- DOI
  10.21437/interspeech.2019-2008
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019
- 著者名/発表者名
  Wang Xin、Yamagishi Junichi
- 雑誌名
  
  Proceeding of Speech Synthesis Workshop
  
  巻: - ページ: 1-6
- DOI
  10.21437/ssw.2019-1
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Junichi Yamagishi
- 雑誌名
  
  Proc. 10th ISCA Speech Synthesis Workshop
  
  巻: - ページ: 211-216
- DOI
  10.21437/ssw.2019-38
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Rakugo speech synthesis using segment-to-segment neural transduction and style tokens ― toward speech synthesis for entertaining audiences2019
- 著者名/発表者名
  Shuhei Kato, Yusuke Yasuda, Xin Wang, Erica Cooper, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Proc. 10th ISCA Speech Synthesis Workshop
  
  巻: - ページ: 111-116
- DOI
  10.21437/ssw.2019-20
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Bootstrapping Non-Parallel Voice Conversion from Speaker-Adaptive Text-to-Speech2019
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
  
  巻: - ページ: 200-207
- DOI
  10.1109/asru46091.2019.9004008
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019
- 著者名/発表者名
  Nakashika Toru、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27 号: 2 ページ: 244-254
- DOI
  10.1109/taslp.2018.2877465
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] STFT spectral loss for training a neural speech waveform model2019
- 著者名/発表者名
  Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Neural source-filter-based waveform model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019
- 著者名/発表者名
  Shreyas Seshadri, Lauri Juvela, Junichi Yamagishi, Okko Rasanen, Paavo Alku
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: -
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A comparison between STRAIGHT, glottal, and sinusoidal vocoding in statistical parametric speech synthesis2018
- 著者名/発表者名
  Airaksinen Manu, Juvela Lauri, Bollepalli Bajibabu, Junichi Yamagishi, Alku Paavo,
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 26(9) 号: 9 ページ: 1658-1670
- DOI
  10.1109/taslp.2018.2835720
- 関連する報告書
  2018 実績報告書
- 査読あり / 国際共著
[雑誌論文] Expressive Speech Synthesis Using Sentiment Embeddings2018
- 著者名/発表者名
  Igor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 3062-3066
- DOI
  10.21437/interspeech.2018-2467
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Speaker-independent Raw Waveform Model for Glottal Excitation2018
- 著者名/発表者名
  Lauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 2012-2016
- DOI
  10.21437/interspeech.2018-1635
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 2494-2498
- DOI
  10.21437/interspeech.2018-1791
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Wasserstein GAN and waveform loss-based acoustic model training for multi-speaker text-to-speech synthesis systems using a WaveNet neural vocoder2018
- 著者名/発表者名
  Yi Zhao, Shinji Takaki, Hieu-Thi Luong, Junichi Yamagishi, Daisuke Saito, and Nobuaki Minematsu
- 雑誌名
  
  IEEE Access
  
  巻: 6 ページ: 60478-60488
- DOI
  10.1109/access.2018.2872060
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  2018 IEEE Spoken Language Technology Workshop (SLT)
  
  巻: - ページ: 610-617
- DOI
  10.1109/slt.2018.8639659
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Speech Enhancement of Noisy and Reverberant Speech for Text-to-Speech2018
- 著者名/発表者名
  Cassia Valentini-Botinhao, Junichi Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 8 号: 8 ページ: 1420-1433
- DOI
  10.1109/taslp.2018.2828980
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Autoregressive neural F0 model for statistical parametric speech synthesis2018
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 8 号: 8 ページ: 1406-1419
- DOI
  10.1109/taslp.2018.2828650
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment2018
- 著者名/発表者名
  Tomi Kinnunen, Jaime Lorenzo-Trueba, Junichi Yamagishi, Tomoki Toda, Daisuke Saito, Fernando Villavicencio and Zhenhua Ling
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Junichi Yamagishi, Tomoki Toda, Daisuke Saito, Fernando Villavicencio, Tomi Kinnunen and Zhenhua Ling
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Can we steal your vocal identity from the Internet?: Initial investigation of cloning Obama’s voice using GAN, WaveNet and low-quality found data2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Fuming Fang, Xin Wang, Isao Echizen, Junichi Yamagishi and Tomi Kinnunen
- 雑誌名
  
  Speaker Odyssey 2018
  
  巻: －
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] HIGH-QUALITY NONPARALLEL VOICE CONVERSION BASED ON CYCLE-CONSISTENT ADVERSARIAL NETWORK2018
- 著者名/発表者名
  Fuming Fang, Junichi Yamagishi, Isao Echizen, Jaime Lorenzo-Trueba
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 5279-5283
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] CYBORG SPEECH: DEEP MULTILINGUAL SPEECH SYNTHESIS FOR GENERATING SEGMENTAL FOREIGN ACCENT WITH NATURAL PROSODY2018
- 著者名/発表者名
  Gustav Eje Henter, Jaime Lorenzo-Trueba, Xin Wang, Mariko Kondo, Junichi Yamagishi
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 4799-4803
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] SPEECH WAVEFORM SYNTHESIS FROM MFCC SEQUENCES WITH GENERATIVE ADVERSARIAL NETWORKS2018
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Xin Wang, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 5679-5683
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS2018
- 著者名/発表者名
  A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS
- 雑誌名
  
  2018 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: －ページ: 4804-4808
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Investigating very deep highway networks for parametric speech synthesis2018
- 著者名/発表者名
  Wang Xin、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  Speech Communication
  
  巻: 96 ページ: 1-9
- DOI
  10.1016/j.specom.2017.11.002
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Influence of speaker familiarity on blind and visually impaired children's perception of synthetic voices2017
- 著者名/発表者名
  Michael Pucher, Bettina Zillinger, Markus Toman, Junichi Yamagishi, Erich Schmid, Cassia Valentini-Botinhao, Dietmar Schabus, Thomas Woltron
- 雑誌名
  
  Computer Speech & Language
  
  巻: 46 ページ: 179-195
- DOI
  10.1016/j.csl.2017.05.010
- 関連する報告書
  2017 実績報告書
- 査読あり / 国際共著
[雑誌論文] An RNN-based Quantized F0 Model with Multi-tier Feedback Links forText-to-Speech Synthesis2017
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1059-1063
- DOI
  10.21437/interspeech.2017-246
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Direct modeling of frequency spectra and waveform generationbased on phase recovery for DNN-based speech synthesis2017
- 著者名/発表者名
  Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1128-1132
- DOI
  10.21437/interspeech.2017-488
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Complex-valued restricted Boltzmann machine for direct learning of frequency spectra2017
- 著者名/発表者名
  Toru Nakashika, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 4021-4025
- DOI
  10.21437/interspeech.2017-584
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Reducing mismatch in training of DNN-based glottal excitation models in a statistical parametric text-to-speech system2017
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 1368-1372
- DOI
  10.21437/interspeech.2017-848
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Generative Adversarial Network-based Postfilter for STFT Spectrograms2017
- 著者名/発表者名
  Takuhiro Kaneko, Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 3389-3393
- DOI
  10.21437/interspeech.2017-962
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Learning word vector representations based on acoustic counts2017
- 著者名/発表者名
  M. Sam Ribeiro, Oliver Watts, Junichi Yamagishi
- 雑誌名
  
  Interspeech 2017
  
  巻: －ページ: 799-803
- DOI
  10.21437/interspeech.2017-1340
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] 音声の個人性に関する多角的研究2019
- 著者名/発表者名
  山岸順一
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
- 招待講演
[学会発表] 落語音声合成モデルの頑健な学習方法と発話様式の変動への対処2019
- 著者名/発表者名
  加藤集平, 安田裕介, Xin Wang, Erica Cooper, 高木信二, 山岸順一
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] ソフトアテンションを使用しないエンドツーエンド音声合成の初期検討2019
- 著者名/発表者名
  安田裕介, 山岸順一, Xin Wang
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] Speaker Identity Cloning and Protection2019
- 著者名/発表者名
  Junichi Yamagishi
- 学会等名
  AFEKA SPEECH PROCESSING CONFERENCE 2019: 10-YEAR ANNIVERSARY CONFERENCE
- 関連する報告書
  2019 実績報告書
- 国際学会 / 招待講演
[学会発表] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2019
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 学会等名
  2018 IEEE Spoken Language Technology Workshop (SLT)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] STFT spectral loss for training a neural speech waveform model2019
- 著者名/発表者名
  Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Neural source-filter-based waveform model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019
- 著者名/発表者名
  Shreyas Seshadri, Lauri Juvela, Junichi Yamagishi, Okko Rasanen, Paavo Alku
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Expressive Speech Synthesis Using Sentiment Embeddings2018
- 著者名/発表者名
  Igor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte
- 学会等名
  Interspeech 2018
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Speaker-independent Raw Waveform Model for Glottal Excitation2018
- 著者名/発表者名
  Lauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 学会等名
  Interspeech 2018
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 学会等名
  Interspeech 2018
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Investigation of WaveNet for Text-to-Speech Synthesis2018
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] Stealing your vocal identity from the internet: cloning Obama's voice from found data using GAN and Wavenet2018
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Xin Wang, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] Generating segment-level foreign-accented synthetic speech with natural speech prosody2018
- 著者名/発表者名
  Gustav Henter, Jaime Lorenzo-Trueba, Xin Wang, Kondo Mariko, Junichi Yamagishi
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] リカレント構造を持つ複素制限ボルツマンマシンによる複素スペクトル系列モデリング2018
- 著者名/発表者名
  中鹿亘, 高木信二, 山岸順一
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] CycleGANを用いたクロスリンガル声質変換2018
- 著者名/発表者名
  房福明, Jaime Lorenzo- Trueba, 山岸順一, 越前功
- 学会等名
  情報処理学会第120回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] CycleGANを用いた高品質なノンパラレル声質変換2017
- 著者名/発表者名
  房福明, 山岸順一, 越前功
- 学会等名
  第19回音声言語シンポジウム
- 関連する報告書
  2017 実績報告書
[学会発表] Analyzing the impact of including listener perception annotations in RNN-based emotional speech synthesis2017
- 著者名/発表者名
  Jaime Lorenzo-Trueba・Gustav Henter・Shinji Takaki・Junichi Yamagishi
- 学会等名
  第19回音声言語シンポジウム
- 関連する報告書
  2017 実績報告書
[学会発表] ASVspoof: 話者照合における生体検知2017
- 著者名/発表者名
  山岸順一
- 学会等名
  第7回バイオメトリクスと認識・認証シンポジウム
- 関連する報告書
  2017 実績報告書
- 招待講演
[学会発表] 複素RBMを用いた音声スペクトルモデリングの改良と評価2017
- 著者名/発表者名
  中鹿亘，高木信二，山岸順一
- 学会等名
  日本音響学会2017年秋季研究発表会
- 関連する報告書
  2017 実績報告書
[学会発表] Autoregressive quantized F0 modeling using a recurrent neural network with feedback links2017
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2017年8月音声研究会
- 関連する報告書
  2017 実績報告書
[学会発表] 複素RBM：制限ボルツマンマシンの複素数拡張と音声信号への応用と評価2017
- 著者名/発表者名
  中鹿亘，高木信二，山岸順一
- 学会等名
  第117回音声言語情報処理研究会
- 関連する報告書
  2017 実績報告書
[学会発表] 敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング2017
- 著者名/発表者名
  金子卓弘, 高木信二, 亀岡弘和, 山岸順一
- 学会等名
  2017年6月度音声研究会
- 関連する報告書
  2017 実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)

21,710千円 (直接経費: 16,700千円、間接経費: 5,010千円)

報告書

研究成果

[国際共同研究] National University of Singapore(シンガポール)

関連する報告書

[国際共同研究] Aalto university(フィンランド)

関連する報告書

[国際共同研究] MIT/JHU(米国)

関連する報告書

[国際共同研究] Aalto university(フィンランド)

関連する報告書

[国際共同研究] Polytechnic University of Catalonia(スペイン)

関連する報告書

[国際共同研究] エジンバラ大学(英国)

関連する報告書

[国際共同研究] アルト大学/東フィンランド大学(フィンランド)

関連する報告書

[国際共同研究] Oben(米国)

関連する報告書

[国際共同研究] 中国科学技術大学(中国)

関連する報告書

[国際共同研究] Austrian Academy of Sciences/Austrian Research Institute for AI/University of Applied Sciences(オーストリア)

関連する報告書

[国際共同研究]

関連する報告書

[雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Zero-Shot Multi-Speaker Text-To-Speech with State-Of-The-Art Neural Speaker Embeddings2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Effect of Choice of Probability Distribution, Randomness, and Search Methods for Alignment Modeling in Sequence-to-Sequence Text-to-Speech Synthesis Using Hard Alignment2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Joint Training Framework for Text-to-Speech and Voice Conversion Using Multi-Source Tacotron and WaveNet2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-Spectrogram2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Rakugo speech synthesis using segment-to-segment neural transduction and style tokens ― toward speech synthesis for entertaining audiences2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Bootstrapping Non-Parallel Voice Conversion from Speaker-Adaptive Text-to-Speech2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] STFT spectral loss for training a neural speech waveform model2019

著者名/発表者名

山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)