2023 Fiscal Year Research-status Report

Everyday conversation speech synthesis

Research Project

Project/Area Number	22K12107
Research Institution	Utsunomiya University
Principal Investigator	森大毅宇都宮大学, 工学部, 准教授 (10302184)
Co-Investigator(Kenkyū-buntansha)	有本泰子千葉工業大学, 情報科学部, 准教授 (60586957)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	自発音声 / 会話音声 / 会話音声合成 / 韻律
Outline of Annual Research Achievements	本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。令和5年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を引き続き実施した。FastSpeech 2を単純にCEJCで学習したモデルを初期状態とし、variance adaptor (fo, 強度、継続時間予測器)の重み更新を停止しつつ高品質な音声コーパスであるJSUTを用いてファインチューニングしたハイブリッドモデルを学習した。合成音声を聴き比べたところ、ハイブリッドモデルはCEJCモデルと比べて雑音の少ない音声を合成することができた。ハイブリッドモデルにより日常会話音声らしさを保ちつつ音質改善ができることを、CEJCのみで学習したモデルおよびJSUTのみで学習したモデルと比較する聴取実験により確認した。20代の10人を対象とした評価実験の結果、日常会話音声らしさはCEJCモデルとHybridモデルがJSUTに比べ高く評価された。また、HybridモデルではCEJCモデルと同程度の日常会話音声らしさを保ちつつ、CEJCモデルよりも明瞭な音声が合成できることが示された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法について、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングが有効であることを見出し、会話音声の韻律を有する音声合成の品質向上を達成できた。
Strategy for Future Research Activity	[会話音声らしさに関与する韻律ラベルの重要性の検討] End-to-endモデルはテキストと音声波形との関係を直接モデル化するものであるが、会話音声において重要なパラ言語情報、すなわちテキストにすると欠落する情報に関与する韻律の多様性はモデル化できない。そこで、CEJCの一部の会話に含まれる韻律ラベル情報をテキストに追加して学習したモデルの合成音声を従来のものと比較することで、韻律ラベルが会話音声合成において本質的か否かの検討を行う。 [聞き手反応の合成] 会話においては、相槌や感情表出系感動詞の果たす役割が大きい。しかし、FastSpeech 2ではこれらの短い発話の合成音声の品質が低く、またパラ言語的多様性の再現ができない。そこで、Global Style Tokenを用いてパラ言語埋め込みを教師なしで抽出するとともに、聞き手反応の合成に特化したモジュールを作成し、他者発話コンテキストで条件付けることでパラ言語的多様性の再現を図る。
Causes of Carryover	次年度使用額はごく少額であり、消耗品類の購入に使用する。

Research Products
(15 results)

All 2025 2024 2023

All Journal Article (4 results) (of which Peer Reviewed: 4 results, Open Access: 4 results) Presentation (11 results) (of which Invited: 2 results)

[Journal Article] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025
- Author(s)
  Yoshiko Arimoto, Yasuo Horiuchi, Sumio Ohno
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 1 Pages: -
- Peer Reviewed / Open Access
[Journal Article] Acoustic differences between laughter and screams in spontaneous dialog2024
- Author(s)
  Matsuda Takuto、Arimoto Yoshiko
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 45 Pages: 135-146
- DOI
  10.1250/ast.e23.58
- Peer Reviewed / Open Access
[Journal Article] 2023.8.12023
- Author(s)
  Hiroki Mori,Shunya Kimura
- Journal Title
  
  Proc. Interspeech 2023
  
  Volume: - Pages: 3372-3376
- DOI
  10.21437/Interspeech.2023-2453
- Peer Reviewed / Open Access
[Journal Article] Detection of Laughter and Screaming Using the Attention and CTC Models2023
- Author(s)
  Matsuda Takuto、Arimoto Yoshiko
- Journal Title
  
  Proceedings of Interspeech2023
  
  Volume: - Pages: 1025-1029
- DOI
  10.21437/Interspeech.2023-1412
- Peer Reviewed / Open Access
[Presentation] 音声合成用コーパスおよび日常会話コーパスのハイブリッドモデリングによる日常会話音声の合成2024
- Author(s)
  古川晃大，森大毅
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 日常会話コーパスを利用したspeech-laughの冒頭音素の対話ドメイン比較2024
- Author(s)
  有本泰子, 神津宏尚
- Organizer
  国立国語研究所「日常会話コーパス」シンポジウム IX,
[Presentation] メルケプストラムを利用したspeech-laugh冒頭音素の音響分析2024
- Author(s)
  瀬戸口遼, 有本泰子
- Organizer
  日本音響学会2024年春季研究発表会講演論文集
[Presentation] クラウドソーシングを利用した叫び声に対する感情次元評価2024
- Author(s)
  大石暖, 大久保港, 有本泰子
- Organizer
  日本音響学会2024年春季研究発表会講演論文集,
[Presentation] 共起笑いの音響分析と生理反応への影響2024
- Author(s)
  飯田真広, 有本泰子
- Organizer
  日本音響学会音声研究会（ASJ-SP）資料
[Presentation] wav2vec 2.0 を用いた笑い声・叫び声検出が可能な音声認識2024
- Author(s)
  松田匠翔, 有本泰子
- Organizer
  日本音響学会音声研究会（ASJ-SP）資料
[Presentation] 会話エージェントは，いつ，どのように笑うべきか: ヒトの笑い声研究からの示唆2023
- Author(s)
  森大毅
- Organizer
  日本音響学会2023年秋季研究発表会
- Invited
[Presentation] 笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価2023
- Author(s)
  倉澤瑞, 福田樹人, 有本泰子
- Organizer
  人工知能学会言語・音声理解と対話処理研究会（SIG-SLUD）第99回研究会「第14回対話システムシンポジウム」
[Presentation] speech-laugh の発生機序解明に向けた冒頭母音の音響分析2023
- Author(s)
  瀬戸口遼, 有本泰子
- Organizer
  日本音響学会2023年秋季研究発表会講演論文集
[Presentation] 自発的な笑い声と叫び声が検出可能なEnd-to-End 音声認識の検討2023
- Author(s)
  松田匠翔, 有本泰子
- Organizer
  日本音響学会2023年秋季研究発表会講演論文集
[Presentation] 情動発声研究のその先に:笑い声・叫び声の認識・合成，そしてインタラクション2023
- Author(s)
  有本泰子
- Organizer
  日本音響学会2023年秋季研究発表会講演論文集
- Invited

2023 Fiscal Year Research-status Report

Everyday conversation speech synthesis

Principal Investigator

森 大毅 宇都宮大学, 工学部, 准教授 (10302184)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025

Author(s)

Journal Title

[Journal Article] Acoustic differences between laughter and screams in spontaneous dialog2024

Author(s)

Journal Title

DOI

[Journal Article] 2023.8.12023

Author(s)

Journal Title

DOI

[Journal Article] Detection of Laughter and Screaming Using the Attention and CTC Models2023

Author(s)

Journal Title

DOI

[Presentation] 音声合成用コーパスおよび日常会話コーパスのハイブリッドモデリングによる日常会話音声の合成2024

Author(s)

Organizer

[Presentation] 日常会話コーパスを利用したspeech-laughの冒頭音素の対話ドメイン比較2024

Author(s)

Organizer

[Presentation] メルケプストラムを利用したspeech-laugh冒頭音素の音響分析2024

Author(s)

Organizer

[Presentation] クラウドソーシングを利用した叫び声に対する感情次元評価2024

Author(s)

Organizer

[Presentation] 共起笑いの音響分析と生理反応への影響2024

Author(s)

Organizer

[Presentation] wav2vec 2.0 を用いた笑い声・叫び声検出が可能な音声認識2024

Author(s)

Organizer

[Presentation] 会話エージェントは，いつ，どのように笑うべきか: ヒトの笑い声研究からの示唆2023

Author(s)

Organizer

[Presentation] 笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価2023

Author(s)

Organizer

[Presentation] speech-laugh の発生機序解明に向けた冒頭母音の音響分析2023

Author(s)

Organizer

[Presentation] 自発的な笑い声と叫び声が検出可能なEnd-to-End 音声認識の検討2023

Author(s)

Organizer

[Presentation] 情動発声研究のその先に:笑い声・叫び声の認識・合成，そしてインタラクション2023

Author(s)

Organizer

森大毅宇都宮大学, 工学部, 准教授 (10302184)