2022 Fiscal Year Research-status Report
Everyday conversation speech synthesis
Project/Area Number |
22K12107
|
Research Institution | Utsunomiya University |
Principal Investigator |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
Co-Investigator(Kenkyū-buntansha) |
有本 泰子 千葉工業大学, 情報科学部, 准教授 (60586957)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 自発音声 / 会話音声 / 会話音声合成 / 韻律 |
Outline of Annual Research Achievements |
本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。 令和4年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を前倒しして実施した。独立したニューラルfoモデルの導入に先立って、まず FastSpeech 2 のvariance adaptor (fo, 強度、継続時間予測器) の個別学習を試みた。前処理として、CEJCは録音レベルの統制が取れていないため、セッション単位で平均強度を一致させるような振幅正規化を行った。また、電話音声は発声方法がかなり異なることがわかったので最初の検討からは除外した。FastSpeech 2を単純にCEJCで学習したモデルから得られた合成音声は、我々が日常的に発する発話の韻律的特徴をよく反映することがわかったので、このモデルを初期状態とし、variance adaptorの重み更新を停止しつつ別の高品質な音声コーパスを用いてファインチューニングする方法を検討した。このようにして得られた合成音声は、現在のところ、品質の点でも韻律の点でも予想されるようなものとはなっておらず、原因の究明が必要である。 さらに、令和4年度はaffect burst合成に関する検討として、叫び声の合成ならびにspeech laughの音声学的検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語日常会話コーパスに基づき、FastSpeech 2を用いた日常会話音声の合成が可能であることを確認できた。 スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法については、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングを検討しているが、現在のところ音質が改善されておらず、原因を究明している。
|
Strategy for Future Research Activity |
FastSpeech 2モデルの転移学習に関しては、初期モデルを会話音声モデルとして読み上げ音声でファインチューニングする方法のほか、初期モデルを読み上げ音声として会話音声でファインチューニングする方法、ならびに別個にモデル学習を行った後に会話音声モデルのvariance adaptorのパラメータを読み上げ音声モデルに転移する方法を並行して検討する。その過程で、現在処理に誤りがあると思われる部分を同定する。 また、ニューラルfoモデルの検討として、これまで計画していたフルコンテキストラベルに替えて、rinna社が4月に公開した約19000の日本語音声コーパスで学習された大規模事前学習モデルを利用した音素埋め込みを利用した会話音声のfoモデルの検討を行う。
|
Causes of Carryover |
国際会議・国内会議がオンライン開催となったために、当初計上していた旅費の一部を使用しなかった。 今年度以降は現地開催の会議が増えたため、発表の機会を増やす予定である。
|