Project/Area Number |
21K11963
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Okayama University |
Principal Investigator |
Abe Masanobu 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 音声合成 / 感情 / 話者性 / 音声対話システム / DNN / 感情音声 / WaveNet / x-vector / 深層学習 / マルチモダル |
Outline of Research at the Start |
音声対話システムの合成音声出力として、より自然な応答を実現するために多様な感情表現を可能とするとともに話者性を自由度高く表現できる音声合成方式の確立を目指す。研究のポイントはWaveNetをベースとする音声生成過程を考慮しない新しいDNNの音声信号生成法の検討にあり、検討項目は①非言語情報の表現モデル、②知識蒸留(Knowledge Distillation)の発想に基づく少量データに基づく学習、③音声対話システムにおける有効性の検証である。
|
Outline of Final Research Achievements |
In DNN-based speech synthesis, we examined methods for expressing non-verbal information such as emotions and individuality through two approaches. Approach 1 prioritizes the transmission of emotions over linguistic information. After training with several hours of normal speech data, the model is retrained with about 10 minutes of emotional speech. It was found that this approach can synthesize emotional speech while maintaining the naturalness of human speech, and it also allows for controlling the intensity of the emotion. Approach 2 reflects the emotions contained in the input speech into the synthesized speech. After modifying the speaker's identity through voice conversion, the emotional information is conditioned with x-vectors for TTS. Evaluation experiments revealed that this approach can synthesize speech that reflects not only the emotions of the input speech but also the intensity of those emotions.
|
Academic Significance and Societal Importance of the Research Achievements |
テキストからの音声合成(Text-to-Speech:TTS)は,近年の深層学習(Deep Leaning)に基づくDeep Neural Networks(DNN)を利用することで飛躍的に性能が向上し,音声対話システムに導入されるに至った.音声は人間にとって便利なコミュニケーション手段であることから、今後もさらに合成音声の用途が増えていくと考えられる。その際、非言語情報である感情や個人性を含めた多様性を十分に表現することが肝要である。本研究は少量のデータによって非言語情報を制御する方式を提案しており、今後の音声対話システムを広く展開する上で必要な要素技術となる。
|