• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

Continual Learning に基づく持続的に学習可能な音声合成

研究課題

研究課題/領域番号 21K21305
研究機関東京大学

研究代表者

齋藤 佑樹  東京大学, 大学院情報理工学系研究科, 助教 (20907901)

研究期間 (年度) 2021-08-30 – 2023-03-31
キーワード音声合成 / 深層学習 / Continual Learning
研究実績の概要

本年度は,昨年度までに構築した理論を,(1) より実社会に適した対話タスクに適用するためのアルゴリズム設計と (2) 多様な対話ドメインで動作可能な音声合成エージェントに向けたデータベース整備を実施した.
(1) 人間のように対話相手の感情に共感して発話スタイルを制御する「共感的対話音声合成」というタスクにおいて,これまでの対話履歴を考慮して音声合成モデルを学習するアルゴリズムと,対話履歴の音声言語情報から発話スタイルに関する文脈情報をデータ駆動で獲得するための注意機構を設計した.評価結果から,従来の言語情報のみを考慮する学習アルゴリズムよりも表現力豊かな音声合成が実現できることを確認した.
(2) (1) は,共感的対話のドメインとして「個別指導塾での教師と生徒の対話」に着目したものである.本研究ではさらに,「コールセンターでのオペレータと顧客の対話」を考え,カジュアルな対話ドメインとフォーマルな対話ドメインを両方カバーするための共感的対話音声合成コーパスを設計した.本コーパスにより,多ドメイン共感的対話音声合成のための continual learning 研究の推進が期待される.本コーパスは,非商用利用での研究開発目的であればオンラインで誰でも入手できるようになっている.
総括すると,本研究期間全体を通じた成果は以下のとおりである.
(1) 単一話者のテキスト読み上げドメインにおける音声合成の continual learning の基礎検討 (2) (1) を多話者音声合成に拡張するための学習アルゴリズムの設計・評価 (3) (1) を対話音声合成に拡張するための学習アルゴリズムおよびニューラルネットワーク構造の設計・評価 (4) (3) を多ドメイン対話音声合成に拡張するためのデータベース整備

  • 研究成果

    (4件)

すべて 2023 2022 その他

すべて 学会発表 (3件) (うち国際学会 2件) 備考 (1件)

  • [学会発表] 多ドメイン共感的対話音声合成に向けた音声コーパスの構築2023

    • 著者名/発表者名
      齋藤 佑樹, 飯森 英治, 高道 慎之介, 橘 健太郎, 猿渡 洋
    • 学会等名
      第9回 音声・音響・信号処理ワークショップ(SPEASIP)
  • [学会発表] Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History2022

    • 著者名/発表者名
      Yuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari
    • 学会等名
      INTERSPEECH 2022
    • 国際学会
  • [学会発表] Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech2022

    • 著者名/発表者名
      Yusuke Nakai, Yuki Saito, Kenta Udagawa, Hiroshi Saruwatari
    • 学会等名
      APSIPA ASC 2022
    • 国際学会
  • [備考] STUDIES 2 (CALLS) Corpus

    • URL

      https://sython.org/Corpus/STUDIES-2/

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi