研究課題/領域番号 |
22K12107
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61020:ヒューマンインタフェースおよびインタラクション関連
|
研究機関 | 宇都宮大学 |
研究代表者 |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
研究分担者 |
有本 泰子 千葉工業大学, 情報科学部, 准教授 (60586957)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
|
キーワード | 自発音声 / 会話音声 / 会話音声合成 / 韻律 |
研究開始時の研究の概要 |
深層学習の登場により、もはや人間の肉声と区別することができないほど高品質な合成音声が実現されている。しかし、既存の音声合成システム構築のために使用されている音声データは指定したテキストを読み上げさせたものであり、会話音声とは質的に全く異なる。人と機械の音声コミュニケーションを人同士のそれに近づけるためには、会話音声の持つ特質を持った音声を合成する技術が必要である。本研究は、日本語日常会話コーパスという大規模会話コーパスの有効利用によって、これまでの合成音声とは全く異なる、日常会話に見られるような音声の合成を実現しようとする試みである。
|
研究実績の概要 |
本研究の目的は、日本語日常会話コーパス(CEJC)を利用した高品質な会話音声の合成である。End-to-end音声合成をCEJCのような録音品質が悪いコーパスに適用すると、その悪い音をそのままモデル化してしまう。本研究では、CEJCを韻律モデルの学習のみに使用しつつ、別の高品質な音声コーパスを併用してスペクトルモデルを学習することで、読み上げ音声の合成と同等な品質を保ちながら会話音声の韻律を有する音声合成を目指している。 令和4年度は、end-to-end音声合成による韻律とスペクトルの重層モデリングの検討を前倒しして実施した。独立したニューラルfoモデルの導入に先立って、まず FastSpeech 2 のvariance adaptor (fo, 強度、継続時間予測器) の個別学習を試みた。前処理として、CEJCは録音レベルの統制が取れていないため、セッション単位で平均強度を一致させるような振幅正規化を行った。また、電話音声は発声方法がかなり異なることがわかったので最初の検討からは除外した。FastSpeech 2を単純にCEJCで学習したモデルから得られた合成音声は、我々が日常的に発する発話の韻律的特徴をよく反映することがわかったので、このモデルを初期状態とし、variance adaptorの重み更新を停止しつつ別の高品質な音声コーパスを用いてファインチューニングする方法を検討した。このようにして得られた合成音声は、現在のところ、品質の点でも韻律の点でも予想されるようなものとはなっておらず、原因の究明が必要である。 さらに、令和4年度はaffect burst合成に関する検討として、叫び声の合成ならびにspeech laughの音声学的検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
日本語日常会話コーパスに基づき、FastSpeech 2を用いた日常会話音声の合成が可能であることを確認できた。 スペクトル等、韻律以外の音声の特徴を読み上げ音声コーパスから転移学習するための方法については、FastSpeech 2のvariance adaptorの重み更新を止めたファインチューニングを検討しているが、現在のところ音質が改善されておらず、原因を究明している。
|
今後の研究の推進方策 |
FastSpeech 2モデルの転移学習に関しては、初期モデルを会話音声モデルとして読み上げ音声でファインチューニングする方法のほか、初期モデルを読み上げ音声として会話音声でファインチューニングする方法、ならびに別個にモデル学習を行った後に会話音声モデルのvariance adaptorのパラメータを読み上げ音声モデルに転移する方法を並行して検討する。その過程で、現在処理に誤りがあると思われる部分を同定する。 また、ニューラルfoモデルの検討として、これまで計画していたフルコンテキストラベルに替えて、rinna社が4月に公開した約19000の日本語音声コーパスで学習された大規模事前学習モデルを利用した音素埋め込みを利用した会話音声のfoモデルの検討を行う。
|