• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

研究課題

研究課題/領域番号 20K11862
研究機関名古屋工業大学

研究代表者

橋本 佳  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード音声合成 / 音声情報処理
研究実績の概要

本研究の目的は、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立することである。任意の言語・話者・感情の組み合わせの合成音声を生成可能とするためには、言語・話者・感情それぞれに依存する音声の特徴を分離し、さらにそれらを学習データにない組み合わせで音声を合成可能にする枠組みが必要である。
本年度は、音声に含まれる言語・話者に依存する特徴を分離しながら音声合成用モデルを学習するために、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組んだ。エンコーダにおいて獲得した発話単位の潜在変数と言語依存層を用いた言語特徴量から、音響特徴量を復元するように学習を行うことで、発話単位に変動する話者情報を言語情報と分離しながら獲得する。さらに、デコーダの出力に対し、時間変動を考慮した学習の導入、フレーム単位の音響特徴量の識別器を用いた敵対的学習の導入を行った。MOS試験による主観評価実験の結果、学習データに含まれない言語・話者の組み合わせにおいて、提案法はより自然性の高い音声を生成することを示した。
さらに、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造として、話者を表す潜在変数と感情(発話スタイル)を表す潜在変数を導入した変分オートエンコーダに基づく音声合成手法を提案した。また、顔画像から話者の特徴を再現するための枠組みとして、変分オートエンコーダに基づく手法を提案した。こちらでは、顔画像から獲得した潜在変数が音声から獲得した話者の潜在変数と一致するような制約を導入することで、顔画像から話者(声質)の特徴を予測可能とし、音声情報を用いることなく声質を再現した合成音声の生成を実現した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究は、任意の言語・話者・感情の組み合わせの合成音声を生成可能とするために、言語・話者・感情それぞれに依存する特徴や言語・話者・感情に非依存な特徴を深層学習によって獲得するためのモデル構造、モデル学習法、補助特徴量に関する研究開発を並行して進めている。
本年度は、変分オートエンコーダに基づく複数言語・複数話者のモデル化に取り組み、言語・話者・感情それぞれに依存する特徴を分離しながらモデル化するためのモデル構造、モデル学習法について検討を進めた。また、話速に注目し、言語・話者に依存した情報を分離しながら学習するためのモデル構造についても検討を進めた。評価実験の結果から、その有効性を示した。
さらに、話者と感情に注目し、話者・感情に依存する音声の特徴を分離しながらモデル化するモデル構造を提案し、さらに、このモデル構造において適切なモデル学習法についても検討を進めた。補助特徴についても検討を進めており、顔画像と音声の変分オートエンコーダを同時に学習する際に、話者を表現する潜在変数と顔画像から得られる潜在変数が近づくような制約を導入することで、顔画像から話者の特徴(声質)を予測することが可能なモデルを提案した。
以上のことから、おおむね順調に進展しているといえる。

今後の研究の推進方策

本年度は、深層学習に基づく音声合成において、言語・話者に依存する音声の特徴を分離しながらモデル化するために、変分オートエンコーダに基づくモデル構造を提案し、さらに、時間変動を考慮したモデル学習、音響特徴量に対する識別器を用いた敵対的学習を導入し、主観評価実験によって有効性を示した。引き続き、言語・話者に依存する音声の特徴を適切に分離することが可能なモデル構造やモデル学習法の解明に取り組む。特に、異なる言語において話者の特徴をより適切に再現するためのモデル学習法について検討を進める。
また、異なる言語において話者・感情を再現するための補助特徴量としては、顔画像を利用したモデル構造についても検討を進める。本年度は顔画像と音声の変分オートエンコーダを同時に学習し、顔画像から得られる潜在変数と音声から得られる潜在変数が一致するような制約を導入したモデル学習法を提案した。実験結果から、顔画像からある程度の情報を獲得し、声質を予測可能であることを示したが、さらなる予測精度の改善を目指す。適切なモデル構造とモデル学習法について検討を進め、顔画像から話者の特徴を予測する精度を改善させる。

次年度使用額が生じた理由

本年度は、新型コロナウイルスの影響もあり、旅費については当初予定から減額が生じたため、次年度使用額が生じた。次年度予算と合わせて深層学習用のGPU計算機の購入に使用する予定である。

  • 研究成果

    (8件)

すべて 2022 2021

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (7件) (うち国際学会 1件)

  • [雑誌論文] PeriodNet: A Non-Autoregressive Raw Waveform Generative Model With a Structure Separating Periodic and Aperiodic Components2021

    • 著者名/発表者名
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • 雑誌名

      IEEE Access

      巻: 9 ページ: 137599-137612

    • DOI

      10.1109/ACCESS.2021.3118033

    • 査読あり / オープンアクセス
  • [学会発表] 深層学習に基づく音声合成における顔画像情報を用いたクロスモーダル話者適応2022

    • 著者名/発表者名
      平光啓祐, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2022年春季研究発表会
  • [学会発表] 声質・声の高さ・話速を変更可能なニューラルボコーダ構成法の検討2022

    • 著者名/発表者名
      佐々木一匡, 吉村建慶, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2022年春季研究発表会
  • [学会発表] HSMM構造化アテンションに基づく音声合成のためのメモリ削減手法2022

    • 著者名/発表者名
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2022年春季研究発表会
  • [学会発表] 非周期性指標を考慮したニューラルボコーダの学習2022

    • 著者名/発表者名
      法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2022年春季研究発表会
  • [学会発表] PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components2021

    • 著者名/発表者名
      Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
    • 学会等名
      2021 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • 国際学会
  • [学会発表] 因子分析に基づくHSMMを利用した構造化アテンション音声合成2021

    • 著者名/発表者名
      高木信二, 牛田光一, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2021年秋季研究発表会
  • [学会発表] 隠れセミマルコフモデルによる構造化アテンションを用いた自己回帰型VAEに基づくsequence-to-sequence音声合成2021

    • 著者名/発表者名
      藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会2021年秋季研究発表会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi