日常会話音声の合成

研究課題

研究課題/領域番号	22K12107
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61020:ヒューマンインタフェースおよびインタラクション関連
研究機関	宇都宮大学
研究代表者	森大毅宇都宮大学, 工学部, 准教授 (10302184)
研究分担者	有本泰子千葉工業大学, 情報科学部, 准教授 (60586957)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	自発音声 / 会話音声 / 会話音声合成 / 韻律
研究開始時の研究の概要	深層学習の登場により、もはや人間の肉声と区別することができないほど高品質な合成音声が実現されている。しかし、既存の音声合成システム構築のために使用されている音声データは指定したテキストを読み上げさせたものであり、会話音声とは質的に全く異なる。人と機械の音声コミュニケーションを人同士のそれに近づけるためには、会話音声の持つ特質を持った音声を合成する技術が必要である。本研究は、日本語日常会話コーパスという大規模会話コーパスの有効利用によって、これまでの合成音声とは全く異なる、日常会話に見られるような音声の合成を実現しようとする試みである。
研究実績の概要	本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。令和5年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を引き続き実施した。FastSpeech 2を単純にCEJCで学習したモデルを初期状態とし、variance adaptor (fo, 強度、継続時間予測器)の重み更新を停止しつつ高品質な音声コーパスであるJSUTを用いてファインチューニングしたハイブリッドモデルを学習した。合成音声を聴き比べたところ、ハイブリッドモデルはCEJCモデルと比べて雑音の少ない音声を合成することができた。ハイブリッドモデルにより日常会話音声らしさを保ちつつ音質改善ができることを、CEJCのみで学習したモデルおよびJSUTのみで学習したモデルと比較する聴取実験により確認した。20代の10人を対象とした評価実験の結果、日常会話音声らしさはCEJCモデルとHybridモデルがJSUTに比べ高く評価された。また、HybridモデルではCEJCモデルと同程度の日常会話音声らしさを保ちつつ、CEJCモデルよりも明瞭な音声が合成できることが示された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法について、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングが有効であることを見出し、会話音声の韻律を有する音声合成の品質向上を達成できた。
今後の研究の推進方策	[会話音声らしさに関与する韻律ラベルの重要性の検討] End-to-endモデルはテキストと音声波形との関係を直接モデル化するものであるが、会話音声において重要なパラ言語情報、すなわちテキストにすると欠落する情報に関与する韻律の多様性はモデル化できない。そこで、CEJCの一部の会話に含まれる韻律ラベル情報をテキストに追加して学習したモデルの合成音声を従来のものと比較することで、韻律ラベルが会話音声合成において本質的か否かの検討を行う。 [聞き手反応の合成] 会話においては、相槌や感情表出系感動詞の果たす役割が大きい。しかし、FastSpeech 2ではこれらの短い発話の合成音声の品質が低く、またパラ言語的多様性の再現ができない。そこで、Global Style Tokenを用いてパラ言語埋め込みを教師なしで抽出するとともに、聞き手反応の合成に特化したモジュールを作成し、他者発話コンテキストで条件付けることでパラ言語的多様性の再現を図る。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(30件)

すべて 2025 2024 2023 2022

すべて雑誌論文 (13件) (うち査読あり 10件、オープンアクセス 13件) 学会発表 (17件) (うち招待講演 2件)

[雑誌論文] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025
- 著者名/発表者名
  Yoshiko Arimoto, Yasuo Horiuchi, Sumio Ohno
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 1
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Acoustic differences between laughter and screams in spontaneous dialog2024
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 45 号: 3 ページ: 135-146
- DOI
  10.1250/ast.e23.58
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2024-05-01
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Phonetic analysis on speech-laugh occurrence in spontaneous gaming dialog2023
- 著者名/発表者名
  Arimoto Yoshiko
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 44 号: 1 ページ: 36-39
- DOI
  10.1250/ast.44.36
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2023-01-01
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] A Generative Framework for Conversational Laughter: Its 'Language Model' and Laughter Sound Synthesis2023
- 著者名/発表者名
  Mori Hiroki、Kimura Shunya
- 雑誌名
  
  Proceedings of Interspeech2023
  
  巻: - ページ: 3372-3376
- DOI
  10.21437/interspeech.2023-2453
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Detection of Laughter and Screaming Using the Attention and CTC Models2023
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Proceedings of Interspeech2023
  
  巻: - ページ: 1025-1029
- DOI
  10.21437/interspeech.2023-1412
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 私たちはなぜ，いつ，どのように笑うのか2022
- 著者名/発表者名
  森大毅
- 雑誌名
  
  日本音響学会誌
  
  巻: 79 号: 1 ページ: 57-63
- DOI
  10.20697/jasj.79.1_57
- ISSN
  0369-4232, 2432-2040
- 年月日
  2022-12-25
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] コーパス使いますか？作りますか？2022
- 著者名/発表者名
  有本泰子
- 雑誌名
  
  日本音響学会誌
  
  巻: 79 号: 1 ページ: 64-71
- DOI
  10.20697/jasj.79.1_64
- ISSN
  0369-4232, 2432-2040
- 年月日
  2022-12-25
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022
- 著者名/発表者名
  Takahisa Iizuka, Hiroki Mori
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 43 号: 4 ページ: 228-231
- DOI
  10.1250/ast.43.228
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2022-07-01
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 対話システムはどのように話すべきか2022
- 著者名/発表者名
  森大毅
- 雑誌名
  
  日本音響学会誌
  
  巻: 78 号: 5 ページ: 283-288
- DOI
  10.20697/jasj.78.5_283
- ISSN
  0369-4232, 2432-2040
- 年月日
  2022-05-01
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] 自然で表現豊かな笑い声合成に向けた感情情報からの笑い声の構成要素決定法2022
- 著者名/発表者名
  有本泰子、今西利於、森大毅
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 号: 4 ページ: 1159-1169
- DOI
  10.20729/00217618
- 年月日
  2022-04-15
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] How does a spontaneously speaking conversational agent affect user behavior?2022
- 著者名/発表者名
  Takahisa Iizuka, Hiroki Mori
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 111042-111051
- DOI
  10.1109/access.2022.3214977
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Neural conversational speech synthesis with flexible control of emotion dimensions2022
- 著者名/発表者名
  Hiroki Mori, Hironao Nishino
- 雑誌名
  
  Proc. APSIPA ASC 2022
  
  巻: －ページ: 432-436
- DOI
  10.23919/apsipaasc55919.2022.9980105
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Acoustic discriminability of unconscious laughter and scream during game-play2022
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Proc. Speech Prosody 2022
  
  巻: －ページ: 575-579
- DOI
  10.21437/speechprosody.2022-117
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 音声合成用コーパスおよび日常会話コーパスのハイブリッドモデリングによる日常会話音声の合成2024
- 著者名/発表者名
  古川晃大，森大毅
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 日常会話コーパスを利用したspeech-laughの冒頭音素の対話ドメイン比較2024
- 著者名/発表者名
  有本泰子, 神津宏尚
- 学会等名
  国立国語研究所「日常会話コーパス」シンポジウム IX,
- 関連する報告書
  2023 実施状況報告書
[学会発表] メルケプストラムを利用したspeech-laugh冒頭音素の音響分析2024
- 著者名/発表者名
  瀬戸口遼, 有本泰子
- 学会等名
  日本音響学会2024年春季研究発表会講演論文集
- 関連する報告書
  2023 実施状況報告書
[学会発表] クラウドソーシングを利用した叫び声に対する感情次元評価2024
- 著者名/発表者名
  大石暖, 大久保港, 有本泰子
- 学会等名
  日本音響学会2024年春季研究発表会講演論文集,
- 関連する報告書
  2023 実施状況報告書
[学会発表] 共起笑いの音響分析と生理反応への影響2024
- 著者名/発表者名
  飯田真広, 有本泰子
- 学会等名
  日本音響学会音声研究会（ASJ-SP）資料
- 関連する報告書
  2023 実施状況報告書
[学会発表] wav2vec 2.0 を用いた笑い声・叫び声検出が可能な音声認識2024
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会音声研究会（ASJ-SP）資料
- 関連する報告書
  2023 実施状況報告書
[学会発表] 会話エージェントは，いつ，どのように笑うべきか: ヒトの笑い声研究からの示唆2023
- 著者名/発表者名
  森大毅
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] 笑い声に応答するゲームシステムの開発に向けたイベント呈示の生理学的評価2023
- 著者名/発表者名
  倉澤瑞, 福田樹人, 有本泰子
- 学会等名
  人工知能学会言語・音声理解と対話処理研究会（SIG-SLUD）第99回研究会「第14回対話システムシンポジウム」
- 関連する報告書
  2023 実施状況報告書
[学会発表] speech-laugh の発生機序解明に向けた冒頭母音の音響分析2023
- 著者名/発表者名
  瀬戸口遼, 有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
- 関連する報告書
  2023 実施状況報告書
[学会発表] 自発的な笑い声と叫び声が検出可能なEnd-to-End 音声認識の検討2023
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
- 関連する報告書
  2023 実施状況報告書
[学会発表] 情動発声研究のその先に:笑い声・叫び声の認識・合成，そしてインタラクション2023
- 著者名/発表者名
  有本泰子
- 学会等名
  日本音響学会2023年秋季研究発表会講演論文集
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] 話者変換によるデータ拡張を利用した叫び声合成2023
- 著者名/発表者名
  白鳥恵大, 有本泰子
- 学会等名
  日本音響学会2023年春季研究発表会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] 笑い声合成における音声記号表現と音響特徴量の感情次元による制御2022
- 著者名/発表者名
  木村駿野, 森大毅
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] BiLSTM-CTC モデルを使用した自発的な笑い声と叫び声のEnd-to-End検出モデルの構築2022
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] 感情知覚特性に基づいた自発的な叫び声の分類と音響的特徴量の関係2022
- 著者名/発表者名
  大久保港, 井岸渉, 有本泰子
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] 自発対話音声に対する叫び声アノテーション2022
- 著者名/発表者名
  白鳥恵大, 大久保港, 松田匠翔, 有本泰子
- 学会等名
  言語資源ワークショップ2022
- 関連する報告書
  2022 実施状況報告書
[学会発表] 様々な対話場面におけるspeech-laughの発生タイミングの分析2022
- 著者名/発表者名
  有本泰子, 真弓花
- 学会等名
  言語資源ワークショップ2022
- 関連する報告書
  2022 実施状況報告書

日常会話音声の合成

研究代表者

森 大毅 宇都宮大学, 工学部, 准教授 (10302184)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Determining the base frequency of the F0 contour generation model for the diverse expression of speech,” Acoustical Science and Technology2025

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Acoustic differences between laughter and screams in spontaneous dialog2024

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Phonetic analysis on speech-laugh occurrence in spontaneous gaming dialog2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] A Generative Framework for Conversational Laughter: Its 'Language Model' and Laughter Sound Synthesis2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Detection of Laughter and Screaming Using the Attention and CTC Models2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 私たちはなぜ，いつ，どのように笑うのか2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] コーパス使いますか？作りますか？2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 対話システムはどのように話すべきか2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 自然で表現豊かな笑い声合成に向けた感情情報からの笑い声の構成要素決定法2022

著者名/発表者名

雑誌名

DOI

年月日

関連する報告書

[雑誌論文] How does a spontaneously speaking conversational agent affect user behavior?2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Neural conversational speech synthesis with flexible control of emotion dimensions2022

著者名/発表者名

雑誌名

DOI

関連する報告書

森大毅宇都宮大学, 工学部, 准教授 (10302184)