超短遅延音声変換システムの実現に関する研究

研究課題

研究課題/領域番号	19K20295
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋大学
研究代表者	小林和弘名古屋大学, 情報基盤センター, 研究員 (50815602)
研究期間 (年度)	2019-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2019年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声変換 / 話者 / 深層学習 / リアルタイム / 主観評価実験 / フレーム化処理 / 超短遅延音声変換 / 短遅延 / 電気式人工喉頭
研究開始時の研究の概要	音声変換は，入力話者から目標話者へと音声の話者性を変換する技術である．更に，短遅延変換法と組み合わせる事で，入力音声を逐次的に変換するリアルタイム音声変換が実現可能である．一方で，リアルタイム音声変換は，変換音声の品質が著しく劣化する事が知られている．深層学習を用いた音声変換法は，この問題を解決する方法として期待されているが，計算量の増加などにより遅延量が大きくなる傾向が知られている．本研究課題では，深層学習による超短遅延音声波形生成法を用いた音声変換の実現を目指す．さらに，超短遅延音声変換によるフィードバックが入力話者に与える影響を調査し，本手法の可用性を明らかにする．
研究成果の概要	音声変換は、入力話者が発話した音声を異なる話者の音声へと変換するシステムである。さらにストリーミング変換処理技術と組み合わせる事で、入力された音声をリアルタイムに変換する事が可能である。一方で、遅延量と変換品質はトレードオフの関係にあり、遅延量を短くする事で多くの品質劣化が生じる事が確認されている。本研究課題では、これらの課題を解決に向けて、パラレルデータを用いた音声変換やノンパラレルデータを用いた音声変換などの研究開発に取り組んだ。
研究成果の学術的意義や社会的意義	音声変換技術は、人と人のコミュニケーションで使われる音声を対象とした技術である。声優などの卓越した話者を除き、個人が発話可能な声色の表現範囲は狭く、多くの人にとって他者の声色を完全に模倣する事は困難である。音声変換技術は、声色の表現範囲の壁を超え、誰もが多種多様な声色で発話する事を可能とする技術として期待されている。とりわけ、短遅延音声変換は入力された音声を逐次的に変換できるため、人と人とのコミュニケーションを大きく拡張する事が期待されている。一方で、高品質かつ短遅延な音声変換は未だ困難であるため、その実現に向けた研究成果や知見は重要であると考えられる。

報告書

(4件)

研究成果
(7件)

すべて 2022 2021 2020 その他

すべて学会発表 (5件) (うち国際学会 5件) 備考 (2件)

[学会発表] An investigation of streaming non-autoregressive sequence-to-sequence voice conversion2022
- 著者名/発表者名
  T. Hayashi, K. Kobayashi, T. Toda
- 学会等名
  IEEE ICASSP
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Crank: an open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder2021
- 著者名/発表者名
  K. Kobayashi, W.-C. Huang, Y.-C. Wu, P.L. Tobing, T. Hayashi, T. Toda
- 学会等名
  IEEE ICASSP
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Non-autoregressive sequence-to-sequence voice conversion2021
- 著者名/発表者名
  T. Hayashi, W.-C. Huang, K. Kobayashi, T. Toda
- 学会等名
  IEEE ICASSP
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] CRANK: AN OPEN-SOURCE SOFTWARE FOR NONPARALLEL VOICE CONVERSION BASED ON VECTOR-QUANTIZED VARIATIONAL AUTOENCODER2021
- 著者名/発表者名
  Kazuhiro Kobayashi, Wen-Chin Huang, Yi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Tomoki Toda
- 学会等名
  Proc. IEEE ICASSP
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN2020
- 著者名/発表者名
  K. Kobayashi, T. Toda
- 学会等名
  Proc. EUSIPCO
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[備考] 名古屋大学　大学院　情報学研究科　戸田研究室
- URL
  https://www.toda.is.i.nagoya-u.ac.jp/publications_FY2022.html
- 関連する報告書
  2021 実績報告書
[備考] crank
- URL
  https://github.com/k2kobayashi/crank
- 関連する報告書
  2020 実施状況報告書

超短遅延音声変換システムの実現に関する研究

研究代表者

小林 和弘 名古屋大学, 情報基盤センター, 研究員 (50815602)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[学会発表] An investigation of streaming non-autoregressive sequence-to-sequence voice conversion2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Crank: an open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Non-autoregressive sequence-to-sequence voice conversion2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] CRANK: AN OPEN-SOURCE SOFTWARE FOR NONPARALLEL VOICE CONVERSION BASED ON VECTOR-QUANTIZED VARIATIONAL AUTOENCODER2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN2020

著者名/発表者名

学会等名

関連する報告書

[備考] 名古屋大学 大学院 情報学研究科 戸田研究室

URL

関連する報告書

[備考] crank

URL

関連する報告書

小林和弘名古屋大学, 情報基盤センター, 研究員 (50815602)

[備考] 名古屋大学　大学院　情報学研究科　戸田研究室