2021 年度実績報告書

End-to-End音声合成とEnd-to-End音声認識の統合システム

研究課題

研究課題/領域番号	19J21031
研究機関	京都大学
研究代表者	上乃聖京都大学, 情報学研究科, 特別研究員(DC1)
研究期間 (年度)	2019-04-25 – 2022-03-31
キーワード	音声認識 / 音声合成
研究実績の概要	研究の目的はEnd-to-End音声合成とEnd-to-End音声認識を統合することで、適用対象(タスク、ドメイン)のテキストのみがある条件でも音声との対データを構成し、一括で学習するシステムを実現することである。今年度は音声認識と音声合成を効率的に統合でき、かつ音声認識の性能の低下が少ない表現を構成する方法の研究を行った。音声認識の性能の低下の原因のひとつとして挙げられるのが、実際に人間が話した音声(自然音声)と音声合成システムが生成した音声(合成音声)に差があることである。音声合成においては、通常テキストから人が聞くことのできる音声波形を作るのに必要な周波数スペクトル特徴量を予測するモデルを用いた後に、その周波数スペクトル特徴量を音声波形に変換するモデルを用いて、音声波形を生成する。周波数スペクトル特徴量は音声認識の訓練データとしても用いられ、生成された音声波形を再び周波数スペクトル特徴量に変換し、音声認識に用いる。音声波形に変換するモデルには自然音声と合成音声の差異を埋める効果があるが、この波形生成に非常に時間がかかるという問題がある。そこで今年度は音声波形に変換するモデルを用いずに周波数スペクトル特徴量上で直接差異を埋めるネットワークを構築した。提案手法では、生成された周波数スペクトル特徴量だけでなく、音声合成のタスクで利用可能な発話の音素系列情報も用いる。評価実験から、提案手法が音声波形に変換するよりも少ない処理時間で音声認識の拡張の効果が高いことを示し、また、発話の音素系列情報の利用も改善に重要であることを示した。
現在までの達成度 (段落)	令和3年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和3年度が最終年度であるため、記入しない。

研究成果
(6件)

すべて 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (5件) (うち国際学会 2件)

[雑誌論文] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021
- 著者名/発表者名
  Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 42 ページ: 333--343
- DOI
  10.1250/ast.42.333
- 査読あり / オープンアクセス
[学会発表] Phone-informed refinement of synthesized Mel spectrogram for data augmentation in speech recognition2022
- 著者名/発表者名
  Sei Ueno and Tatsuya Kawahara
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] 音声認識のデータ拡張のための音素情報を用いた合成音声の強調2022
- 著者名/発表者名
  上乃聖, 河原達也
- 学会等名
  日本音響学会研究発表会講演論文集, 春季
[学会発表] Data augmentation for ASR using TTS via a discrete representation2021
- 著者名/発表者名
  Sei Ueno, Masato Mimura, Shinsuke Sakai, and Tatsuya Kawahara
- 学会等名
  IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
- 国際学会
[学会発表] 音声認識のデータ拡張のための合成音声の周波数スペクトログラム強調2021
- 著者名/発表者名
  上乃聖, 河原達也
- 学会等名
  研究報告音声言語情報処理（SLP）
[学会発表] wav2vec 2.0を用いた音声合成による音声認識のデータ拡張2021
- 著者名/発表者名
  上乃聖, 河原達也
- 学会等名
  日本音響学会研究発表会講演論文集, 秋季

2021 年度 実績報告書

End-to-End音声合成とEnd-to-End音声認識の統合システム

研究代表者

上乃 聖 京都大学, 情報学研究科, 特別研究員(DC1)

研究成果

[雑誌論文] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021

著者名/発表者名

雑誌名

DOI

[学会発表] Phone-informed refinement of synthesized Mel spectrogram for data augmentation in speech recognition2022

著者名/発表者名

学会等名

[学会発表] 音声認識のデータ拡張のための音素情報を用いた合成音声の強調2022

著者名/発表者名

学会等名

[学会発表] Data augmentation for ASR using TTS via a discrete representation2021

著者名/発表者名

学会等名

[学会発表] 音声認識のデータ拡張のための合成音声の周波数スペクトログラム強調2021

著者名/発表者名

学会等名

[学会発表] wav2vec 2.0を用いた音声合成による音声認識のデータ拡張2021

著者名/発表者名

学会等名

2021 年度実績報告書

上乃聖京都大学, 情報学研究科, 特別研究員(DC1)