2022 年度実施状況報告書

日常会話音声の合成

研究課題

研究課題/領域番号	22K12107
研究機関	宇都宮大学
研究代表者	森大毅宇都宮大学, 工学部, 准教授 (10302184)
研究分担者	有本泰子千葉工業大学, 情報科学部, 准教授 (60586957)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	自発音声 / 会話音声 / 会話音声合成 / 韻律
研究実績の概要	本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。令和4年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を前倒しして実施した。独立したニューラルfoモデルの導入に先立って、まず FastSpeech 2 のvariance adaptor (fo, 強度、継続時間予測器) の個別学習を試みた。前処理として、CEJCは録音レベルの統制が取れていないため、セッション単位で平均強度を一致させるような振幅正規化を行った。また、電話音声は発声方法がかなり異なることがわかったので最初の検討からは除外した。FastSpeech 2を単純にCEJCで学習したモデルから得られた合成音声は、我々が日常的に発する発話の韻律的特徴をよく反映することがわかったので、このモデルを初期状態とし、variance adaptorの重み更新を停止しつつ別の高品質な音声コーパスを用いてファインチューニングする方法を検討した。このようにして得られた合成音声は、現在のところ、品質の点でも韻律の点でも予想されるようなものとはなっておらず、原因の究明が必要である。さらに、令和4年度はaffect burst合成に関する検討として、叫び声の合成ならびにspeech laughの音声学的検討を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由日本語日常会話コーパスに基づき、FastSpeech 2を用いた日常会話音声の合成が可能であることを確認できた。スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法については、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングを検討しているが、現在のところ音質が改善されておらず、原因を究明している。
今後の研究の推進方策	FastSpeech 2モデルの転移学習に関しては、初期モデルを会話音声モデルとして読み上げ音声でファインチューニングする方法のほか、初期モデルを読み上げ音声として会話音声でファインチューニングする方法、ならびに別個にモデル学習を行った後に会話音声モデルのvariance adaptorのパラメータを読み上げ音声モデルに転移する方法を並行して検討する。その過程で、現在処理に誤りがあると思われる部分を同定する。また、ニューラルfoモデルの検討として、これまで計画していたフルコンテキストラベルに替えて、rinna社が4月に公開した約19000の日本語音声コーパスで学習された大規模事前学習モデルを利用した音素埋め込みを利用した会話音声のfoモデルの検討を行う。
次年度使用額が生じた理由	国際会議・国内会議がオンライン開催となったために、当初計上していた旅費の一部を使用しなかった。今年度以降は現地開催の会議が増えたため、発表の機会を増やす予定である。

研究成果
(15件)

すべて 2023 2022

すべて雑誌論文 (9件) (うち査読あり 6件、オープンアクセス 7件) 学会発表 (6件)

[雑誌論文] 私たちはなぜ，いつ，どのように笑うのか: 笑い声の生物学・心理学・形態学・社会学そして会話エージェント2023
- 著者名/発表者名
  森大毅
- 雑誌名
  
  日本音響学会誌
  
  巻: 79 ページ: 57-63
- DOI
  10.20697/jasj.79.1_57
[雑誌論文] Phonetic analysis on speech-laugh occurrence in spontaneous gaming dialog2023
- 著者名/発表者名
  Arimoto Yoshiko
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 44 ページ: 36-39
- DOI
  10.1250/ast.44.36
- 査読あり / オープンアクセス
[雑誌論文] コーパス使いますか？作りますか？ ―感情音声分析のためのコーパス構築―2023
- 著者名/発表者名
  有本泰子
- 雑誌名
  
  日本音響学会誌
  
  巻: 79 ページ: 64-71
- DOI
  10.20697/jasj.79.1_64
- オープンアクセス
[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022
- 著者名/発表者名
  Takahisa Iizuka, Hiroki Mori
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 43 ページ: 228-231
- DOI
  10.1250/ast.43.228
- 査読あり / オープンアクセス
[雑誌論文] How does a spontaneously speaking conversational agent affect user behavior?2022
- 著者名/発表者名
  Takahisa Iizuka, Hiroki Mori
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 111042-111051
- DOI
  10.1109/ACCESS.2022.3214977
- 査読あり / オープンアクセス
[雑誌論文] Neural conversational speech synthesis with flexible control of emotion dimensions2022
- 著者名/発表者名
  Hiroki Mori, Hironao Nishino
- 雑誌名
  
  Proc. APSIPA ASC 2022
  
  巻: －ページ: 432-436
- DOI
  10.23919/APSIPAASC55919.2022.9980105
- 査読あり / オープンアクセス
[雑誌論文] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022
- 著者名/発表者名
  森大毅
- 雑誌名
  
  日本音響学会誌
  
  巻: 78 ページ: 283-288
- DOI
  10.20697/jasj.78.5_283
[雑誌論文] 自然で表現豊かな笑い声合成に向けた感情情報からの笑い声の構成要素決定法2022
- 著者名/発表者名
  有本泰子, 今西利於, 森大毅
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 1159-1169
- DOI
  10.20729/00217618
- 査読あり / オープンアクセス
[雑誌論文] Acoustic discriminability of unconscious laughter and scream during game-play2022
- 著者名/発表者名
  Matsuda Takuto、Arimoto Yoshiko
- 雑誌名
  
  Proc. Speech Prosody 2022
  
  巻: －ページ: 575-579
- DOI
  10.21437/SpeechProsody.2022-117
- 査読あり / オープンアクセス
[学会発表] 話者変換によるデータ拡張を利用した叫び声合成2023
- 著者名/発表者名
  白鳥恵大, 有本泰子
- 学会等名
  日本音響学会2023年春季研究発表会講演論文集
[学会発表] 笑い声合成における音声記号表現と音響特徴量の感情次元による制御2022
- 著者名/発表者名
  木村駿野, 森大毅
- 学会等名
  日本音響学会2022年秋季研究発表会
[学会発表] BiLSTM-CTC モデルを使用した自発的な笑い声と叫び声のEnd-to-End検出モデルの構築2022
- 著者名/発表者名
  松田匠翔, 有本泰子
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
[学会発表] 感情知覚特性に基づいた自発的な叫び声の分類と音響的特徴量の関係2022
- 著者名/発表者名
  大久保港, 井岸渉, 有本泰子
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
[学会発表] 自発対話音声に対する叫び声アノテーション2022
- 著者名/発表者名
  白鳥恵大, 大久保港, 松田匠翔, 有本泰子
- 学会等名
  言語資源ワークショップ2022
[学会発表] 様々な対話場面におけるspeech-laughの発生タイミングの分析2022
- 著者名/発表者名
  有本泰子, 真弓花
- 学会等名
  言語資源ワークショップ2022

2022 年度 実施状況報告書

日常会話音声の合成

研究代表者

森 大毅 宇都宮大学, 工学部, 准教授 (10302184)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 私たちはなぜ，いつ，どのように笑うのか: 笑い声の生物学・心理学・形態学・社会学そして会話エージェント2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Phonetic analysis on speech-laugh occurrence in spontaneous gaming dialog2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] コーパス使いますか？作りますか？ ―感情音声分析のためのコーパス構築―2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Comparison of machine learning algorithms and acoustic features in emotion recognition from spontaneous speech2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] How does a spontaneously speaking conversational agent affect user behavior?2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Neural conversational speech synthesis with flexible control of emotion dimensions2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] 対話システムはどのように話すべきか: 実際の会話データに基づく話し言葉の合成2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] 自然で表現豊かな笑い声合成に向けた感情情報からの笑い声の構成要素決定法2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Acoustic discriminability of unconscious laughter and scream during game-play2022

著者名/発表者名

雑誌名

DOI

[学会発表] 話者変換によるデータ拡張を利用した叫び声合成2023

著者名/発表者名

学会等名

[学会発表] 笑い声合成における音声記号表現と音響特徴量の感情次元による制御2022

著者名/発表者名

学会等名

[学会発表] BiLSTM-CTC モデルを使用した自発的な笑い声と叫び声のEnd-to-End検出モデルの構築2022

著者名/発表者名

学会等名

[学会発表] 感情知覚特性に基づいた自発的な叫び声の分類と音響的特徴量の関係2022

著者名/発表者名

学会等名

[学会発表] 自発対話音声に対する叫び声アノテーション2022

著者名/発表者名

学会等名

[学会発表] 様々な対話場面におけるspeech-laughの発生タイミングの分析2022

著者名/発表者名

学会等名

2022 年度実施状況報告書

森大毅宇都宮大学, 工学部, 准教授 (10302184)