2022 Fiscal Year Research-status Report

感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

Research Project

Project/Area Number	21K11963
Research Institution	Okayama University
Principal Investigator	阿部匡伸岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
Co-Investigator(Kenkyū-buntansha)	原直岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	感情音声 / 話者性 / DNN / WaveNet / x-vector
Outline of Annual Research Achievements	研究計画調書に記載した課題に関して，令和４年度（２０２２年度）に実施した内容は下記の通り。（課題１）非言語情報の表現モデル　「①-２感情強度表現方式の検討」について，X-vectorを利用して感情強度を制御する方式を検討した。感情は曖昧な情報であり、感情音声を喜怒哀楽にカテゴライズし、さらにそれらの強度をモデル化することは難しい。そこで、感情カテゴリとその強度を推定すること無しに、感情音声からX-vectorを抽出して、合成音声に反映させる方式を検討した。評価実験の結果、「喜」では80％、「哀」では60％程度の感情が表現できた。「喜」「哀」の性能差は原音声の感情の強さに依存している。この点は、評価を含め今後検討を進める。（課題２）少量データによる学習方式　「②-２学習データ量と性能の検討」について、学習済みのモデルを操作して多様な話者性を持つ音声を合成する方式を検討した。提案方式は、限られた学習データを利用して、学習データに含まれない話者性で音声を合成できる。具体的には、複数の学習話者からX-vectorを抽出し、各X-vectorの重みづけ和によって、新しい話者性を表現する。また、平均基本周波数の影響を低減させてX-vectorを抽出する方式を提案した。評価実験の結果、重みの大きさに対応して、話者性を制御できることが明らとなった。（課題３）音声対話システムへの応用　「音声対話タスクの検討」について、課題１で検討した「X-vectorを利用して感情強度を制御する方式」を利用するタスクとして、生徒と教師の対話タスクを選定した。システムが教師役であり、生徒の発話に対して回答する。生徒が「喜」や「哀」の感情で発話すれば、教師も「喜」や「哀」の感情で応答する。評価実験の結果、生徒の感情に合わせて教師が応答できることが明らかとなった。今後は、この応答戦略の妥当性と有効性を検討する。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 「（課題１）非言語情報の表現モデル」に関しては，当初の計画で３年間に実施予定であった全ての項目を実施し、英語論文誌に投稿して採録となった。計画を大幅に上回って進捗している．また，「（課題２）少量データによる学習方式」については、感情データの収集に先んじて研究用に公開されているデータを利用して、アルゴリズムの開発を先行させた。「（課題３）音声対話システムへの応用」については、対話システムを想定した評価実験を先行させ、システムの開発は来年度に変更した。研究の着手の順番は計画と変えているが、研究は着実に進んでいる。
Strategy for Future Research Activity	毎年新しいEnd-2-EndのTTSが提案されており、研究の展開が目まぐるしく変化している。昨年度の研究では、最新の方式を利用しており、検討課題において基本性能を確認するために大量の学習データを利用して検討を進めた。今後は、確認した基本性能をベースに学習データの削減や、学習データにない話者性や感情表現の検討を進める予定である。
Causes of Carryover	コロナ禍のため，国際学会，国内学会がオンライン開催となり，旅費が不要となったため，予定の支出額を下回った．残金は，今後の旅費に使用する予定である．

Research Products
(6 results)

All 2023 2022 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results) Remarks (1 results)

[Journal Article] Speech-like Emotional Sound Generation using WaveNet2022
- Author(s)
  Kento Matsumoto, Sunao Hara, Masanobu Abe
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: Vol.E105-D, No.9 Pages: 1581, 1589
- DOI
  10.1587/transinf.2021EDP7236
- Peer Reviewed
[Presentation] 音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討2023
- Author(s)
  小原俊一, 阿部匡伸, 原直
- Organizer
  電子情報通信学会
[Presentation] 小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討2023
- Author(s)
  和田拓海，原直，阿部匡伸
- Organizer
  日本音響学会
[Presentation] 話者特徴量の操作によりシームレスに話者性を制御できるEnd-to-End 音声合成方式の検討2022
- Author(s)
  青谷直樹, 原直, 阿部匡伸
- Organizer
  電子情報通信学会
[Presentation] 差分メルケプストラムを用いた声質変換による喉締め歌唱音声改善方式の検討2022
- Author(s)
  植田遥人，原直，阿部匡伸
- Organizer
  日本音響学会
[Remarks] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
- URL
  https://site-330980-4570-3498.mystrikingly.com/

2022 Fiscal Year Research-status Report

感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

Principal Investigator

阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Speech-like Emotional Sound Generation using WaveNet2022

Author(s)

Journal Title

DOI

[Presentation] 音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討2023

Author(s)

Organizer

[Presentation] 小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討2023

Author(s)

Organizer

[Presentation] 話者特徴量の操作によりシームレスに話者性を制御できるEnd-to-End 音声合成方式の検討2022

Author(s)

Organizer

[Presentation] 差分メルケプストラムを用いた声質変換による喉締め歌唱音声改善方式の検討2022

Author(s)

Organizer

[Remarks] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

URL

阿部匡伸岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)