2023 Fiscal Year Annual Research Report
感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
Project/Area Number |
21K11963
|
Research Institution | Okayama University |
Principal Investigator |
阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 感情音声 / 話者性 / DNN / WaveNet / x-vector |
Outline of Annual Research Achievements |
研究計画調書に記載した課題に関して,令和5年度(2023年度)に実施した内容は下記の通り。 (課題2)少量データによる学習方式 「②-2学習データ量と性能の検討」について、参照音声データから抽出した話者特徴と感情特徴を用いて、合成音声の多様性を制御する方式を検討した。100人程度の音声を利用して学習した結果、学習データに類似した話者性や感情性が含まれている場合には、所望の品質の合成音が得られるものの、学習内には含まれない話者性や感情性は実現することは困難であった。一方、40秒程度の音声によりモデルをチューニングすることによって、所望の品質が得られることが明らかとなった。この結果から、利用するタスクで必要となる合成音声の話者や感情性が事前に設定できる場合には、あらかじめ必要なデータを収集しておけばよいと言える。また、事前に不明である場合には、新たに必要となる話者性、感情性のデータを40秒程度収集することで、事後に対処することが可能であると言える。 (課題3)音声対話システムへの応用 「音声対話タスクの検討」について、2022年度の課題2で検討した「X-vectorを利用して感情強度を制御する方式」を利用して、生徒と教師の対話タスクを評価した。今年度は、感情種類に加えて、感情の強弱の表現性能も評価した。また、X-vectorを利用する方法に加えて、感情認識結果を利用して感情表現する合成方式も開発し、両者の性能を比較評価した。評価実験の結果、X-vectorを利用した方式の方が性能が良いことが明らかとなった。
|