感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
Project/Area Number |
21K11963
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Okayama University |
Principal Investigator |
阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 感情音声 / 話者性 / DNN / WaveNet / x-vector / 音声合成 / 深層学習 / マルチモダル |
Outline of Research at the Start |
音声対話システムの合成音声出力として、より自然な応答を実現するために多様な感情表現を可能とするとともに話者性を自由度高く表現できる音声合成方式の確立を目指す。研究のポイントはWaveNetをベースとする音声生成過程を考慮しない新しいDNNの音声信号生成法の検討にあり、検討項目は①非言語情報の表現モデル、②知識蒸留(Knowledge Distillation)の発想に基づく少量データに基づく学習、③音声対話システムにおける有効性の検証である。
|
Outline of Annual Research Achievements |
研究計画調書に記載した課題に関して,令和5年度(2023年度)に実施した内容は下記の通り。 (課題2)少量データによる学習方式 「②-2学習データ量と性能の検討」について、参照音声データから抽出した話者特徴と感情特徴を用いて、合成音声の多様性を制御する方式を検討した。100人程度の音声を利用して学習した結果、学習データに類似した話者性や感情性が含まれている場合には、所望の品質の合成音が得られるものの、学習内には含まれない話者性や感情性は実現することは困難であった。一方、40秒程度の音声によりモデルをチューニングすることによって、所望の品質が得られることが明らかとなった。この結果から、利用するタスクで必要となる合成音声の話者や感情性が事前に設定できる場合には、あらかじめ必要なデータを収集しておけばよいと言える。また、事前に不明である場合には、新たに必要となる話者性、感情性のデータを40秒程度収集することで、事後に対処することが可能であると言える。 (課題3)音声対話システムへの応用 「音声対話タスクの検討」について、2022年度の課題2で検討した「X-vectorを利用して感情強度を制御する方式」を利用して、生徒と教師の対話タスクを評価した。今年度は、感情種類に加えて、感情の強弱の表現性能も評価した。また、X-vectorを利用する方法に加えて、感情認識結果を利用して感情表現する合成方式も開発し、両者の性能を比較評価した。評価実験の結果、X-vectorを利用した方式の方が性能が良いことが明らかとなった。
|
Report
(3 results)
Research Products
(9 results)