Can we reduce misperceptions of emotional content of speech in the noisy environments?

研究課題

研究課題/領域番号	19K24373
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	Zhao Yi 国立情報学研究所, コンテンツ科学研究系, 特任研究員 (10843162)
研究期間 (年度)	2019-08-30 – 2021-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	VQVAE / emotional enhancement / neural networks / voice conversion / Lombard speech / Adversarial network / emotion enhancement / speaker embedding / neural vocoder / F0 encoder / speech perception / Lombard effect / deep learning
研究開始時の研究の概要	Our proposed research is aimed at reducing misunderstanding of emotional content of speech produced under the noisy condition. We will firstly learn modifications that the well-trained speakers modify their emotional speech when they are in the noisy environments. Then we will apply the modifications learned from well-trained speakers to less-trained speakers to make the less-trained speakers’ emotional speech in noise less confusable. Finally, we will extend our study to enhance emotion of speech for any given speaker in the noisy environments.
研究成果の概要	私たちは主に、騒がしい環境でのスピーチの感情的な内容の誤解を減らすために調査しました。VQ-VAEベースの音声波形は、通常、不適切な韻律構造を持っていることがわかりました。したがって、VQ-VAEに重要な拡張機能を導入しました音素と同時にF0関連の超分節情報を学習するため。会議論文を発表しました。クリーンな環境での感情的なスピーチを、VQVAEの下でロンバード効果のある感情的なスピーチに変換しようとしました。私たちも持っていますデコードされた音声の感情的な了解度を改善するために、さまざまな敵対的ネットワークを調査しました。
研究成果の学術的意義や社会的意義	この作品は、騒がしい環境での感情表現を強化することにより、悪条件での人間のコミュニケーション効率を向上させます。また、特定の話者に対して、ノイズに強い適切な感情的なスピーチを生成することもできます。

報告書

(3件)

2020 実績報告書研究成果報告書 ( PDF )
2019 実施状況報告書

研究成果

(13件)

すべて 2021 2020 2019 その他

すべて国際共同研究 (5件) 雑誌論文 (4件) (うち国際共著 4件、査読あり 4件、オープンアクセス 4件) 学会発表 (2件) (うち招待講演 2件) 備考 (2件)

[国際共同研究] Massachusetts Institute of Technology(米国)
- 関連する報告書
  2020 実績報告書
[国際共同研究] University of Edinburgh(英国)
- 関連する報告書
  2020 実績報告書
[国際共同研究] National University of Singapore(シンガポール)
- 関連する報告書
  2020 実績報告書
[国際共同研究] USTC(中国)
- 関連する報告書
  2020 実績報告書
[国際共同研究] Aalto University(フィンランド)
- 関連する報告書
  2019 実施状況報告書
[雑誌論文] Improved Prosody from Learned F0 Codebook Representations for VQ-VAE Speech Waveform Reconstruction2020
- 著者名/発表者名
  Zhao Yi、Li Haoyu、Lai Cheng-I、Williams Jennifer、Cooper Erica、Yamagishi Junichi
- 雑誌名
  
  Proc. Interspeech 2020
  
  巻: 2020
- DOI
  10.21437/interspeech.2020-1615
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion2020
- 著者名/発表者名
  Zhao Yi, Wen-Chin Huang, Xiaohai Tian, Junichi Yamagishi, Rohan Kumar Das, Tomi Kinnunen, Zhen-Hua Ling, Tomoki Toda
- 雑誌名
  
  Proc. Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020
  
  巻: 2020
- DOI
  10.21437/vcc_bc.2020-14
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Predictions of Subjective Ratings and Spoofing Assessments of Voice Conversion Challenge 2020 Submissions2020
- 著者名/発表者名
  Rohan Kumar Das, Tomi Kinnunen, Wen-Chin Huang, Zhen-Hua Ling, Junichi Yamagishi, Zhao Yi, Xiaohai Tian, Tomoki Toda
- 雑誌名
  
  Proc. Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020
  
  巻: 2020
- DOI
  10.21437/vcc_bc.2020-15
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Transferring Neural Speech Waveform Synthesizers to Musical Instrument Sounds Generation2020
- 著者名/発表者名
  Yi Zhao ; Xin Wang ; Lauri Juvela ; Junichi Yamagishi
- 雑誌名
  
  ICASSP 2020
  
  巻: - ページ: 6269-6273
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Modeling and evaluation methods in current voice conversion tasks2021
- 著者名/発表者名
  Yi Zhao
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
- 招待講演
[学会発表] Waveform loss-based acoustic modeling for text-to-speech synthesis and speech-to-musical sound transferring2019
- 著者名/発表者名
  Yi Zhao
- 学会等名
  Seminar in National University of Singapore
- 関連する報告書
  2019 実施状況報告書
- 招待講演
[備考] Samples for emotional clean/noisy speech
- URL
  https://nii-yamagishilab.github.io/EmotionaLombardSpeech/
- 関連する報告書
  2019 実施状況報告書
[備考] Samples for neural waveform vocoders
- URL
  https://nii-yamagishilab.github.io/samples-nsf/neural-music.html
- 関連する報告書
  2019 実施状況報告書

Can we reduce misperceptions of emotional content of speech in the noisy environments?

研究代表者

Zhao Yi 国立情報学研究所, コンテンツ科学研究系, 特任研究員 (10843162)

2,860千円 (直接経費: 2,200千円、間接経費: 660千円)

報告書

研究成果

[国際共同研究] Massachusetts Institute of Technology(米国)

関連する報告書

[国際共同研究] University of Edinburgh(英国)

関連する報告書

[国際共同研究] National University of Singapore(シンガポール)

関連する報告書

[国際共同研究] USTC(中国)

関連する報告書

[国際共同研究] Aalto University(フィンランド)

関連する報告書

[雑誌論文] Improved Prosody from Learned F0 Codebook Representations for VQ-VAE Speech Waveform Reconstruction2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Predictions of Subjective Ratings and Spoofing Assessments of Voice Conversion Challenge 2020 Submissions2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Transferring Neural Speech Waveform Synthesizers to Musical Instrument Sounds Generation2020

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Modeling and evaluation methods in current voice conversion tasks2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Waveform loss-based acoustic modeling for text-to-speech synthesis and speech-to-musical sound transferring2019

著者名/発表者名

学会等名

関連する報告書

[備考] Samples for emotional clean/noisy speech

URL

関連する報告書

[備考] Samples for neural waveform vocoders

URL

関連する報告書