2018 年度実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究課題

研究課題/領域番号	17H04687
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声合成 / ディープラーニング / デジタルクローン / 話者適応
研究実績の概要	話者適応は音声合成を応用した「声のデジタルクローン技術」であり、音声の障害者応用で著しい成功を納めている。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする、ディープラーニングによる話者適応、及び、教師なし話者適応手法を実現することが目的である。本年度は、音声のデジタルクローン技術のさらに利便性を向上せる教師なし適応についての研究を邁進し、業績をあげた。通常、音声合成では、音素等のバランスや頻度を考慮して人工的に作成された「音素バランス文」を読み上げた音声を利用する。しかしながら、故人の声をデジタルクローンにより再現するという様な応用を考えた場合、新たに読み上げ音声を収録するという選択肢は無く、収録済みの会話や対話音声といった必ずしもテキストデータが付随しない音声データにより音声合成システムを構築する必要がある。そこで、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。さらに、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelなどの新たなニューラル波形モデルを提案し、複数の論文発表を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当初の目的である教師なし話者適応技術の開発だけでなく、Neural source-filter modelなどの新たなニューラル波形モデルの開発にも成功したことから、当初の計画以上に進展していると判断した。
今後の研究の推進方策	最終年度である本年度は、提案教師なし適応技術をより緻密に評価し、ジャーナル論文化することを目指す。また、これまで提案・開発してきた要素技術を統合し、劣悪環境に頑健な提案話者適応技術を、障碍者応用等の実データに対して適用し、その有効性を検討する。例えば、病気や疾患ですでに声を失ってしまったが、過去の音声データを記録し保有する障碍者も、本提案技術により個人用音声合成システムを利用できる可能性が非常に高くなる事から、その改善程度を評価する。

研究成果

(25件)

すべて 2019 2018 その他

すべて国際共同研究 (2件) 雑誌論文 (13件) (うち国際共著 5件、査読あり 13件、オープンアクセス 12件) 学会発表 (10件) (うち国際学会 10件)

[国際共同研究] Aalto university(フィンランド)
- 国名
  フィンランド
- 外国機関名
  Aalto university
[国際共同研究] Polytechnic University of Catalonia(スペイン)
- 国名
  スペイン
- 外国機関名
  Polytechnic University of Catalonia
[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019
- 著者名/発表者名
  Toru Nakashika, Shinji Takaki, Junichi Yamagishi,
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27(2) ページ: 244-254
- DOI
  https://doi.org/10.1109/TASLP.2018.2877465
- 査読あり / オープンアクセス
[雑誌論文] STFT spectral loss for training a neural speech waveform model2019
- 著者名/発表者名
  Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス
[雑誌論文] Neural source-filter-based waveform model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス
[雑誌論文] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス
[雑誌論文] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス
[雑誌論文] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019
- 著者名/発表者名
  Shreyas Seshadri, Lauri Juvela, Junichi Yamagishi, Okko Rasanen, Paavo Alku
- 雑誌名
  
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  巻: - ページ: 印刷中
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A comparison between STRAIGHT, glottal, and sinusoidal vocoding in statistical parametric speech synthesis2018
- 著者名/発表者名
  Airaksinen Manu, Juvela Lauri, Bollepalli Bajibabu, Junichi Yamagishi, Alku Paavo,
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 26(9) ページ: 1658-1670
- DOI
  https://doi.org/10.1109/TASLP.2018.2835720
- 査読あり / 国際共著
[雑誌論文] Expressive Speech Synthesis Using Sentiment Embeddings2018
- 著者名/発表者名
  Igor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 3062--3066
- DOI
  http://dx.doi.org/10.21437/Interspeech.2018-2467
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Speaker-independent Raw Waveform Model for Glottal Excitation2018
- 著者名/発表者名
  Lauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 2012--2016
- DOI
  http://dx.doi.org/10.21437/Interspeech.2018-1635
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  Proc. Interspeech 2018
  
  巻: - ページ: 2494--2498
- DOI
  http://dx.doi.org/10.21437/Interspeech.2018-1791
- 査読あり / オープンアクセス
[雑誌論文] Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Neural Vocoder2018
- 著者名/発表者名
  Yi Zhao, Shinji Takaki, Hieu-Thi Luong, Junichi Yamagishi, Daisuke Saito, Nobuaki Minematsu
- 雑誌名
  
  IEEE Access
  
  巻: 6(1) ページ: 60478-60488
- DOI
  https://doi.org/10.1109/ACCESS.2018.2872060
- 査読あり / オープンアクセス
[雑誌論文] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 雑誌名
  
  2018 IEEE Spoken Language Technology Workshop (SLT)
  
  巻: - ページ: 610-617
- DOI
  https://doi.org/10.1109/SLT.2018.8639659
- 査読あり / オープンアクセス
[学会発表] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2019
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 学会等名
  2018 IEEE Spoken Language Technology Workshop (SLT)
- 国際学会
[学会発表] STFT spectral loss for training a neural speech waveform model2019
- 著者名/発表者名
  Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Neural source-filter-based waveform model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019
- 著者名/発表者名
  Shreyas Seshadri, Lauri Juvela, Junichi Yamagishi, Okko Rasanen, Paavo Alku
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing
- 国際学会
[学会発表] Expressive Speech Synthesis Using Sentiment Embeddings2018
- 著者名/発表者名
  Igor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] Speaker-independent Raw Waveform Model for Glottal Excitation2018
- 著者名/発表者名
  Lauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation2018
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 学会等名
  Interspeech 2018
- 国際学会

2018 年度 実績報告書

劣悪環境に頑健な声のデジタルクローン技術の確立とその応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] Aalto university(フィンランド)

国名

外国機関名

[国際共同研究] Polytechnic University of Catalonia(スペイン)

国名

外国機関名

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] STFT spectral loss for training a neural speech waveform model2019

著者名/発表者名

雑誌名

[雑誌論文] Neural source-filter-based waveform model for statistical parametric speech synthesis2019

著者名/発表者名

雑誌名

[雑誌論文] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019

著者名/発表者名

雑誌名

[雑誌論文] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019

著者名/発表者名

雑誌名

[雑誌論文] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019

著者名/発表者名

雑誌名

[雑誌論文] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019

著者名/発表者名

雑誌名

[雑誌論文] A comparison between STRAIGHT, glottal, and sinusoidal vocoding in statistical parametric speech synthesis2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Expressive Speech Synthesis Using Sentiment Embeddings2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Speaker-independent Raw Waveform Model for Glottal Excitation2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Neural Vocoder2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2018

著者名/発表者名

雑誌名

DOI

[学会発表] Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems2019

著者名/発表者名

学会等名

[学会発表] STFT spectral loss for training a neural speech waveform model2019

著者名/発表者名

学会等名

[学会発表] Neural source-filter-based waveform model for statistical parametric speech synthesis2019

著者名/発表者名

学会等名

[学会発表] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019

著者名/発表者名

学会等名

[学会発表] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019

著者名/発表者名

学会等名

[学会発表] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019

著者名/発表者名

学会等名

[学会発表] Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion2019

著者名/発表者名

学会等名

2018 年度実績報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)