2021 年度実施状況報告書

感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

研究課題

研究課題/領域番号	21K11963
研究機関	岡山大学
研究代表者	阿部匡伸岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
研究分担者	原直岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	感情音声 / 話者性 / DNN / WaveNet
研究実績の概要	研究計画調書に記載した課題に関して，令和３年度（２０２１年度）に実施した内容は下記の通り。（課題１）非言語情報の表現モデル　「①-１感情表現モデルの検討」　については，話者性を制御できるように補助情報として話者IDを加えるとともに，感情の強さを感情IDのone-hotベクトルの重みによって合成時に制御できるようにモデル構造を改良した。「①-２感情強度表現方式の検討」についてはMOSテストによって感情の強さ制御性能を評価した。評価実験から感情IDの操作によって，“Happy”は感情の強さを制御可能であることが示された．一方，“Angry”は感情の強さが“Happy”ほど適切に制御できなかった。分析の結果， “Angry”は“Normal”に類似した音響パラメータ特徴となっており，今回の実験に使用した“Angry”データは細かな操作が難しい音声であることが明らかとなった。「①-３話者性の多様化への適用」については, ABX テストにより合成音声の話者性を評価した。Xとして自然音声か合成音声のどちらかを提示し，XがA話者とB話者のどちらに近いかを判定させた。自然音声では，“Happy” と“Normal” では正解率が約95%，“Angry” は正解率が約85%であり，他の感情に比べて話者性の差が小さいと考えられる．これに対して合成音声はどの感情においても70％程度となり，正解率は低下するものの話者性の識別はできていると考えられる。また，“Happy”は，話者性の識別率が高く，“Angry”は，話者によっては識別率の高い話者がいた。また，話者性の識別は声質の違いと感情の表出の違いとがあり，どちらが重要な要因であるかはさらなる実験が必要である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由「（課題１）非言語情報の表現モデル」に関しては，当初の計画で３年間に実施予定であった全ての項目「①-１感情表現モデルの検討」「①-２感情強度表現方式の検討」「①-３話者性の多様化への適用」　を実施しており，計画を大幅に上回って進捗している．また，「（課題２）少量データによる学習方式」については，知識蒸留の方式についての検討をすすめ，当初の予定通り進んでいる．「（課題３）音声対話システムへの応用」については，（課題１）の到達レベルを明らかにしてからでないと具体的に決めかねたため，来年度以降に検討することとした．
今後の研究の推進方策	話者性の多様性を実現するためにDNNの音声合成や音声認識の話者性のモデル化に利用されるX-vectorを特徴ベクトルとして導入を検討する．複数話者のX-vector特徴空間において，各話者の重み係数を制御することにより，複数話者の中間的な話者性を持つ音声の合成を検討する．これにより，話者性と感情表現を組合わせることができる方式を検討する．なおこの検討は，ＴＴＳ（テキストからの音声合成）と，非言語情報による感情合成音声（Speech-like-Sound）との両方で行う．
次年度使用額が生じた理由	コロナ禍のため，国際学会，国内学会がオンライン開催となり，旅費が不要となったため，予定の支出額を下回った．残金は，今後の旅費に使用する予定である．

研究成果
(2件)

すべて 2022 その他

すべて学会発表 (1件) 備考 (1件)

[学会発表] 口唇特徴量を利用した知識蒸留による舌亜全摘出者の音韻明瞭度改善法の検討2022
- 著者名/発表者名
  高島和嗣，阿部匡伸，原直
- 学会等名
  電子情報通信学会技術研究報告
[備考] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
- URL
  https://site-330980-4570-3498.mystrikingly.com/