2023 年度実施状況報告書

日常会話音声の合成

研究課題

研究課題/領域番号	22K12107
研究機関	宇都宮大学
研究代表者	森大毅宇都宮大学, 工学部, 准教授 (10302184)
研究分担者	有本泰子千葉工業大学, 情報科学部, 准教授 (60586957)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	自発音声 / 会話音声 / 会話音声合成 / 韻律
研究実績の概要	本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。令和5年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を引き続き実施した。FastSpeech 2を単純にCEJCで学習したモデルを初期状態とし、variance adaptor (fo, 強度、継続時間予測器)の重み更新を停止しつつ高品質な音声コーパスであるJSUTを用いてファインチューニングしたハイブリッドモデルを学習した。合成音声を聴き比べたところ、ハイブリッドモデルはCEJCモデルと比べて雑音の少ない音声を合成することができた。ハイブリッドモデルにより日常会話音声らしさを保ちつつ音質改善ができることを、CEJCのみで学習したモデルおよびJSUTのみで学習したモデルと比較する聴取実験により確認した。20代の10人を対象とした評価実験の結果、日常会話音声らしさはCEJCモデルとHybridモデルがJSUTに比べ高く評価された。また、HybridモデルではCEJCモデルと同程度の日常会話音声らしさを保ちつつ、CEJCモデルよりも明瞭な音声が合成できることが示された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法について、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングが有効であることを見出し、会話音声の韻律を有する音声合成の品質向上を達成できた。
今後の研究の推進方策	[会話音声らしさに関与する韻律ラベルの重要性の検討] End-to-endモデルはテキストと音声波形との関係を直接モデル化するものであるが、会話音声において重要なパラ言語情報、すなわちテキストにすると欠落する情報に関与する韻律の多様性はモデル化できない。そこで、CEJCの一部の会話に含まれる韻律ラベル情報をテキストに追加して学習したモデルの合成音声を従来のものと比較することで、韻律ラベルが会話音声合成において本質的か否かの検討を行う。 [聞き手反応の合成] 会話においては、相槌や感情表出系感動詞の果たす役割が大きい。しかし、FastSpeech 2ではこれらの短い発話の合成音声の品質が低く、またパラ言語的多様性の再現ができない。そこで、Global Style Tokenを用いてパラ言語埋め込みを教師なしで抽出するとともに、聞き手反応の合成に特化したモジュールを作成し、他者発話コンテキストで条件付けることでパラ言語的多様性の再現を図る。
次年度使用額が生じた理由	次年度使用額はごく少額であり、消耗品類の購入に使用する。

研究成果
(15件)

すべて 2025 2024 2023

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 4件) 学会発表 (11件) (うち招待講演 2件)

[雑誌論文] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025
- 著者名/発表者名
  Yoshiko Arimoto, Yasuo Horiuchi, Sumio Ohno
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 1 ページ: -
- 査読あり / オープンアクセス
[雑誌論文] Acoustic differences between laughter and screams in spontaneous dialog2024
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 45 ページ: 135-146
- DOI
  10.1250/ast.e23.58
- 査読あり / オープンアクセス
[雑誌論文] 2023.8.12023
- 著者名/発表者名
  Hiroki Mori,Shunya Kimura
- 雑誌名
  
  Proc. Interspeech 2023
  
  巻: - ページ: 3372-3376
- DOI
  10.21437/Interspeech.2023-2453
- 査読あり / オープンアクセス
[雑誌論文] Detection of Laughter and Screaming Using the Attention and CTC Models2023
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Proceedings of Interspeech2023
  
  巻: - ページ: 1025-1029
- DOI
  10.21437/Interspeech.2023-1412
- 査読あり / オープンアクセス
[学会発表] 音声合成用コーパスおよび日常会話コーパスのハイブリッドモデリングによる日常会話音声の合成2024
- 著者名/発表者名
  古川晃大，森大毅
- 学会等名
  日本音響学会2024年春季研究発表会
[学会発表] 日常会話コーパスを利用したspeech-laughの冒頭音素の対話ドメイン比較2024
- 著者名/発表者名
  有本泰子, 神津宏尚
- 学会等名
  国立国語研究所「日常会話コーパス」シンポジウム IX,
[学会発表] メルケプストラムを利用したspeech-laugh冒頭音素の音響分析2024
- 著者名/発表者名
  瀬戸口遼, 有本泰子
- 学会等名
  日本音響学会2024年春季研究発表会講演論文集
[学会発表] クラウドソーシングを利用した叫び声に対する感情次元評価2024
- 著者名/発表者名
  大石暖, 大久保港, 有本泰子
- 学会等名
  日本音響学会2024年春季研究発表会講演論文集,
[学会発表] 共起笑いの音響分析と生理反応への影響2024
- 著者名/発表者名
  飯田真広, 有本泰子
- 学会等名
  日本音響学会音声研究会（ASJ-SP）資料
[学会発表] wav2vec 2.0 を用いた笑い声・叫び声検出が可能な音声認識2024
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会音声研究会（ASJ-SP）資料
[学会発表] 会話エージェントは，いつ，どのように笑うべきか: ヒトの笑い声研究からの示唆2023
- 著者名/発表者名
  森大毅
- 学会等名
  日本音響学会2023年秋季研究発表会
- 招待講演
[学会発表] 笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価2023
- 著者名/発表者名
  倉澤瑞, 福田樹人, 有本泰子
- 学会等名
  人工知能学会言語・音声理解と対話処理研究会（SIG-SLUD）第99回研究会「第14回対話システムシンポジウム」
[学会発表] speech-laugh の発生機序解明に向けた冒頭母音の音響分析2023
- 著者名/発表者名
  瀬戸口遼, 有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
[学会発表] 自発的な笑い声と叫び声が検出可能なEnd-to-End 音声認識の検討2023
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
[学会発表] 情動発声研究のその先に:笑い声・叫び声の認識・合成，そしてインタラクション2023
- 著者名/発表者名
  有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
- 招待講演

2023 年度 実施状況報告書

日常会話音声の合成

研究代表者

森 大毅 宇都宮大学, 工学部, 准教授 (10302184)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025

著者名/発表者名

雑誌名

[雑誌論文] Acoustic differences between laughter and screams in spontaneous dialog2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] 2023.8.12023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Detection of Laughter and Screaming Using the Attention and CTC Models2023

著者名/発表者名

雑誌名

DOI

[学会発表] 音声合成用コーパスおよび日常会話コーパスのハイブリッドモデリングによる日常会話音声の合成2024

著者名/発表者名

学会等名

[学会発表] 日常会話コーパスを利用したspeech-laughの冒頭音素の対話ドメイン比較2024

著者名/発表者名

学会等名

[学会発表] メルケプストラムを利用したspeech-laugh冒頭音素の音響分析2024

著者名/発表者名

学会等名

[学会発表] クラウドソーシングを利用した叫び声に対する感情次元評価2024

著者名/発表者名

学会等名

[学会発表] 共起笑いの音響分析と生理反応への影響2024

著者名/発表者名

学会等名

[学会発表] wav2vec 2.0 を用いた笑い声・叫び声検出が可能な音声認識2024

著者名/発表者名

学会等名

[学会発表] 会話エージェントは，いつ，どのように笑うべきか: ヒトの笑い声研究からの示唆2023

著者名/発表者名

学会等名

[学会発表] 笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価2023

著者名/発表者名

学会等名

[学会発表] speech-laugh の発生機序解明に向けた冒頭母音の音響分析2023

著者名/発表者名

学会等名

[学会発表] 自発的な笑い声と叫び声が検出可能なEnd-to-End 音声認識の検討2023

著者名/発表者名

学会等名

[学会発表] 情動発声研究のその先に:笑い声・叫び声の認識・合成，そしてインタラクション2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

森大毅宇都宮大学, 工学部, 准教授 (10302184)