感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

研究課題

研究課題/領域番号	21K11963
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	岡山大学
研究代表者	阿部匡伸岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
研究分担者	原直岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	音声合成 / 感情 / 話者性 / 音声対話システム / DNN / 感情音声 / WaveNet / x-vector / 深層学習 / マルチモダル
研究開始時の研究の概要	音声対話システムの合成音声出力として、より自然な応答を実現するために多様な感情表現を可能とするとともに話者性を自由度高く表現できる音声合成方式の確立を目指す。研究のポイントはWaveNetをベースとする音声生成過程を考慮しない新しいDNNの音声信号生成法の検討にあり、検討項目は①非言語情報の表現モデル、②知識蒸留（Knowledge Distillation）の発想に基づく少量データに基づく学習、③音声対話システムにおける有効性の検証である。
研究成果の概要	DNN音声合成において、非言語情報の感情や個人性を表現する方式を２つのアプローチで検討した。アプローチ１は、言語情報の伝達は二の次とし、感情の伝達を優先する。数時間程度の通常発話データを用いて学習した後、１０分程度の感情音声で再学習する。人間の発声した音声らしさを保ちつつ、感情音声を合成できること、感情の強度も制御できることが明らかとなった。アプローチ２は、入力の音声に含まれる感情を合成音声に反映する方式である。声質変換で話者性を変更した後に、感情情報をx-vectorで条件付けしてTTSする。評価実験の結果、入力音声の感情ばかりでなく、感情の強弱も反映させて合成できることが明らかとなった。
研究成果の学術的意義や社会的意義	テキストからの音声合成（Text-to-Speech：TTS）は，近年の深層学習（Deep Leaning）に基づくDeep Neural Networks(DNN）を利用することで飛躍的に性能が向上し，音声対話システムに導入されるに至った．音声は人間にとって便利なコミュニケーション手段であることから、今後もさらに合成音声の用途が増えていくと考えられる。その際、非言語情報である感情や個人性を含めた多様性を十分に表現することが肝要である。本研究は少量のデータによって非言語情報を制御する方式を提案しており、今後の音声対話システムを広く展開する上で必要な要素技術となる。

報告書

(4件)

研究成果
(9件)

すべて 2023 2022 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) 備考 (1件)

[雑誌論文] Speech-Like Emotional Sound Generation Using WaveNet2022
- 著者名/発表者名
  Kento Matsumoto, Sunao Hara, Masanobu Abe
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E105.D 号: 9 ページ: 1581-1589
- DOI
  10.1587/transinf.2021EDP7236
- ISSN
  0916-8532, 1745-1361
- 年月日
  2022-09-01
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[学会発表] 音声対話システムのテキスト音声合成における声質変換とx-vector 埋め込みを用いた感情制御方式の検討2023
- 著者名/発表者名
  小原俊一, 阿部匡伸, 原直
- 学会等名
  日本音響学会
- 関連する報告書
  2023 実績報告書
[学会発表] Speech-Emotion Control for Text-to-Speech in Spoken Dialogue Systems Using Voice Conversion and x-vector Embedding2023
- 著者名/発表者名
  Shunichi Kohara, Masanobu Abe, Sunao Hara
- 学会等名
  APSIPA
- 関連する報告書
  2023 実績報告書
[学会発表] 音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討2023
- 著者名/発表者名
  小原俊一, 阿部匡伸, 原直
- 学会等名
  電子情報通信学会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討2023
- 著者名/発表者名
  和田拓海，原直，阿部匡伸
- 学会等名
  日本音響学会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 話者特徴量の操作によりシームレスに話者性を制御できるEnd-to-End 音声合成方式の検討2022
- 著者名/発表者名
  青谷直樹, 原直, 阿部匡伸
- 学会等名
  電子情報通信学会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 差分メルケプストラムを用いた声質変換による喉締め歌唱音声改善方式の検討2022
- 著者名/発表者名
  植田遥人，原直，阿部匡伸
- 学会等名
  日本音響学会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 口唇特徴量を利用した知識蒸留による舌亜全摘出者の音韻明瞭度改善法の検討2022
- 著者名/発表者名
  高島和嗣，阿部匡伸，原直
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2021 実施状況報告書
[備考] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究
- URL
  https://site-330980-4570-3498.mystrikingly.com/
- 関連する報告書
  2023 実績報告書 2022 実施状況報告書 2021 実施状況報告書

感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

研究代表者

阿部 匡伸 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] Speech-Like Emotional Sound Generation Using WaveNet2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] 音声対話システムのテキスト音声合成における声質変換とx-vector 埋め込みを用いた感情制御方式の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Speech-Emotion Control for Text-to-Speech in Spoken Dialogue Systems Using Voice Conversion and x-vector Embedding2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声対話システムのための入力音声の感情に同調する声質変換とx-vector 埋め込みを用いたテキストからの音声合成方式の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 小説オーディオブックの強調部分を学習に用いる抑揚制御可能なEnd-to-End 音声合成方式の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 話者特徴量の操作によりシームレスに話者性を制御できるEnd-to-End 音声合成方式の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 差分メルケプストラムを用いた声質変換による喉締め歌唱音声改善方式の検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 口唇特徴量を利用した知識蒸留による舌亜全摘出者の音韻明瞭度改善法の検討2022

著者名/発表者名

学会等名

関連する報告書

[備考] 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

URL

関連する報告書

阿部匡伸岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)