研究課題/領域番号 |
19K24373
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
Zhao Yi 国立情報学研究所, コンテンツ科学研究系, 特任研究員 (10843162)
|
研究期間 (年度) |
2019-08-30 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | VQVAE / emotional enhancement / neural networks / voice conversion / Lombard speech / Adversarial network / emotion enhancement / speaker embedding / neural vocoder / F0 encoder / speech perception / Lombard effect / deep learning |
研究開始時の研究の概要 |
Our proposed research is aimed at reducing misunderstanding of emotional content of speech produced under the noisy condition. We will firstly learn modifications that the well-trained speakers modify their emotional speech when they are in the noisy environments. Then we will apply the modifications learned from well-trained speakers to less-trained speakers to make the less-trained speakers’ emotional speech in noise less confusable. Finally, we will extend our study to enhance emotion of speech for any given speaker in the noisy environments.
|
研究成果の概要 |
私たちは主に、騒がしい環境でのスピーチの感情的な内容の誤解を減らすために調査しました。VQ-VAEベースの音声波形は、通常、不適切な韻律構造を持っていることがわかりました。 したがって、VQ-VAEに重要な拡張機能を導入しました音素と同時にF0関連の超分節情報を学習するため。会議論文を発表しました。クリーンな環境での感情的なスピーチを、VQVAEの下でロンバード効果のある感情的なスピーチに変換しようとしました。 私たちも持っていますデコードされた音声の感情的な了解度を改善するために、さまざまな敵対的ネットワークを調査しました。
|
研究成果の学術的意義や社会的意義 |
この作品は、騒がしい環境での感情表現を強化することにより、悪条件での人間のコミュニケーション効率を向上させます。 また、特定の話者に対して、ノイズに強い適切な感情的なスピーチを生成することもできます。
|