2021 Fiscal Year Research-status Report
感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
Project/Area Number |
21K11963
|
Research Institution | Okayama University |
Principal Investigator |
阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 感情音声 / 話者性 / DNN / WaveNet |
Outline of Annual Research Achievements |
研究計画調書に記載した課題に関して,令和3年度(2021年度)に実施した内容は下記の通り。 (課題1)非言語情報の表現モデル 「①-1感情表現モデルの検討」 については,話者性を制御できるように補助情報として話者IDを加えるとともに,感情の強さを感情IDのone-hotベクトルの重みによって合成時に制御できるようにモデル構造を改良した。「①-2感情強度表現方式の検討」についてはMOSテストによって感情の強さ制御性能を評価した。評価実験から感情IDの操作によって,“Happy”は感情の強さを制御可能であることが示された.一方,“Angry”は感情の強さが“Happy”ほど適切に制御できなかった。分析の結果, “Angry”は“Normal”に類似した音響パラメータ特徴となっており,今回の実験に使用した“Angry”データは細かな操作が難しい音声であることが明らかとなった。「①-3話者性の多様化への適用」については, ABX テストにより合成音声の話者性を評価した。Xとして自然音声か合成音声のどちらかを提示し,XがA話者とB話者のどちらに近いかを判定させた。自然音声では,“Happy” と“Normal” では正解率が約95%,“Angry” は正解率が約85%であり,他の感情に比べて話者性の差が小さいと考えられる.これに対して合成音声はどの感情においても70%程度となり,正解率は低下するものの話者性の識別はできていると考えられる。また,“Happy”は,話者性の識別率が高く,“Angry”は,話者によっては識別率の高い話者がいた。また,話者性の識別は声質の違いと感情の表出の違いとがあり,どちらが重要な要因であるかはさらなる実験が必要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「(課題1)非言語情報の表現モデル」に関しては,当初の計画で3年間に実施予定であった全ての項目「①-1感情表現モデルの検討」「①-2感情強度表現方式の検討」「①-3話者性の多様化への適用」 を実施しており,計画を大幅に上回って進捗している.また,「(課題2)少量データによる学習方式」については,知識蒸留の方式についての検討をすすめ,当初の予定通り進んでいる.「(課題3)音声対話システムへの応用」については,(課題1)の到達レベルを明らかにしてからでないと具体的に決めかねたため,来年度以降に検討することとした.
|
Strategy for Future Research Activity |
話者性の多様性を実現するためにDNNの音声合成や音声認識の話者性のモデル化に利用されるX-vectorを特徴ベクトルとして導入を検討する.複数話者のX-vector特徴空間において,各話者の重み係数を制御することにより,複数話者の中間的な話者性を持つ音声の合成を検討する.これにより,話者性と感情表現を組合わせることができる方式を検討する.なおこの検討は,TTS(テキストからの音声合成)と,非言語情報による感情合成音声(Speech-like-Sound)との両方で行う.
|
Causes of Carryover |
コロナ禍のため,国際学会,国内学会がオンライン開催となり,旅費が不要となったため,予定の支出額を下回った.残金は,今後の旅費に使用する予定である.
|
Research Products
(2 results)