2023 Fiscal Year Research-status Report
Everyday conversation speech synthesis
Project/Area Number |
22K12107
|
Research Institution | Utsunomiya University |
Principal Investigator |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
Co-Investigator(Kenkyū-buntansha) |
有本 泰子 千葉工業大学, 情報科学部, 准教授 (60586957)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 自発音声 / 会話音声 / 会話音声合成 / 韻律 |
Outline of Annual Research Achievements |
本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。 令和5年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を引き続き実施した。FastSpeech 2を単純にCEJCで学習したモデルを初期状態とし、variance adaptor (fo, 強度、継続時間予測器)の重み更新を停止しつつ高品質な音声コーパスであるJSUTを用いてファインチューニングしたハイブリッドモデルを学習した。合成音声を聴き比べたところ、ハイブリッドモデルはCEJCモデルと比べて雑音の少ない音声を合成することができた。 ハイブリッドモデルにより日常会話音声らしさを保ちつつ音質改善ができることを、CEJCのみで学習したモデルおよびJSUTのみで学習したモデルと比較する聴取実験により確認した。20代の10人を対象とした評価実験の結果、日常会話音声らしさはCEJCモデルとHybridモデルがJSUTに比べ高く評価された。また、HybridモデルではCEJCモデルと同程度の日常会話音声らしさを保ちつつ、CEJCモデルよりも明瞭な音声が合成できることが示された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法について、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングが有効であることを見出し、会話音声の韻律を有する音声合成の品質向上を達成できた。
|
Strategy for Future Research Activity |
[会話音声らしさに関与する韻律ラベルの重要性の検討] End-to-endモデルはテキストと音声波形との関係を直接モデル化するものであるが、会話音声において重要なパラ言語情報、すなわちテキストにすると欠落する情報に関与する韻律の多様性はモデル化できない。そこで、CEJCの一部の会話に含まれる韻律ラベル情報をテキストに追加して学習したモデルの合成音声を従来のものと比較することで、韻律ラベルが会話音声合成において本質的か否かの検討を行う。 [聞き手反応の合成] 会話においては、相槌や感情表出系感動詞の果たす役割が大きい。しかし、FastSpeech 2ではこれらの短い発話の合成音声の品質が低く、またパラ言語的多様性の再現ができない。そこで、Global Style Tokenを用いてパラ言語埋め込みを教師なしで抽出するとともに、聞き手反応の合成に特化したモジュールを作成し、他者発話コンテキストで条件付けることでパラ言語的多様性の再現を図る。
|
Causes of Carryover |
次年度使用額はごく少額であり、消耗品類の購入に使用する。
|