• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

End-to-End音声合成とEnd-to-End音声認識の統合システム

Research Project

Project/Area Number 19J21031
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionKyoto University

Principal Investigator

上乃 聖  京都大学, 情報学研究科, 特別研究員(DC1)

Project Period (FY) 2019-04-25 – 2022-03-31
Project Status Completed (Fiscal Year 2021)
Budget Amount *help
¥3,100,000 (Direct Cost: ¥3,100,000)
Fiscal Year 2021: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2020: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2019: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords音声認識 / 音声合成
Outline of Research at the Start

近年、従来のモデルより簡潔な構造で音声認識を実現するEnd-to-End音声認識の研究が進められている。しかし、End-to-End音声認識は学習に音声とその書き起こしの対データを大量に必要とし、その準備は困難である。そこで本研究では、End-to-End音声合成を用いた対データ生成をベースに、End-to-End音声合成とEnd-to-End音声認識を統合することで、対訳が必要ない統合システムについて研究を行う。

Outline of Annual Research Achievements

研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。
今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。
音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。
提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。

Research Progress Status

令和3年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和3年度が最終年度であるため、記入しない。

Report

(3 results)
  • 2021 Annual Research Report
  • 2020 Annual Research Report
  • 2019 Annual Research Report
  • Research Products

    (11 results)

All 2022 2021 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (10 results) (of which Int'l Joint Research: 3 results)

  • [Journal Article] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021

    • Author(s)
      S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
    • Journal Title

      Acoustical Science and Technology

      Volume: 42 Issue: 6 Pages: 333-343

    • DOI

      10.1250/ast.42.333

    • NAID

      130008110355

    • ISSN
      0369-4232, 1346-3969, 1347-5177
    • Year and Date
      2021-11-01
    • Related Report
      2021 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] Phone-informed refinement of synthesized Mel spectrogram for data augmentation in speech recognition2022

    • Author(s)
      Sei Ueno and Tatsuya Kawahara
    • Organizer
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 音声認識のデータ拡張のための音素情報を用いた合成音声の強調2022

    • Author(s)
      上乃聖, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集, 春季
    • Related Report
      2021 Annual Research Report
  • [Presentation] Data augmentation for ASR using TTS via a discrete representation2021

    • Author(s)
      Sei Ueno, Masato Mimura, Shinsuke Sakai, and Tatsuya Kawahara
    • Organizer
      IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 音声認識のデータ拡張のための合成音声の周波数スペクトログラム強調2021

    • Author(s)
      上乃聖, 河原達也
    • Organizer
      研究報告音声言語情報処理(SLP)
    • Related Report
      2021 Annual Research Report
  • [Presentation] wav2vec 2.0を用いた音声合成による音声認識のデータ拡張2021

    • Author(s)
      上乃聖, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集, 秋季
    • Related Report
      2021 Annual Research Report
  • [Presentation] vq-wav2vecによる離散IDを扱う音声認識のデータ拡張2021

    • Author(s)
      上乃聖, 三村正人, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集, 春季
    • Related Report
      2020 Annual Research Report
  • [Presentation] 複数話者を対象とした非自己回帰型ニューラル音声合成2021

    • Author(s)
      上乃聖, 三村正人, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集, 春季
    • Related Report
      2020 Annual Research Report
  • [Presentation] Multi-speaker Sequence-to-sequence Speech Synthesis for Data Augmentation in Acoustic-to-word Speech Recognition2019

    • Author(s)
      Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara
    • Organizer
      International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 音声波形を入力とする単語単位End-to-End音声認識2019

    • Author(s)
      上乃 聖, 三村 正人, 坂井 信輔, 河原 達也
    • Organizer
      研究報告音声言語情報処理(SLP)
    • Related Report
      2019 Annual Research Report
  • [Presentation] Wave2word: 音声波形を入力とする単語単位end-to-end音声認識2019

    • Author(s)
      上乃聖, 三村正人, 坂井信輔, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集, 秋季
    • Related Report
      2019 Annual Research Report

URL: 

Published: 2019-05-29   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi