• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

超短遅延音声変換システムの実現に関する研究

Research Project

Project/Area Number 19K20295
Research InstitutionNagoya University

Principal Investigator

小林 和弘  名古屋大学, 情報基盤センター, 研究員 (50815602)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords音声変換 / リアルタイム / 超短遅延音声変換 / 深層学習
Outline of Annual Research Achievements

本研究課題の実施計画の第2・第3ステップは以下である.第2ステップとして,入力話者と目標話者で独立に学習された音声波形生成モデル間において,入力話者から目標話者へと変換する変換関数をモデル化する手法の実現に取り組む.本ステップでは,変換関数により生成された変換音声の話者性が目標話者の話者性へと変換出来ているかを主観評価実験により明らかにする.また,超短遅延での推論を実施した場合の変換音声の変換品質の変化を明らかにする. 最終ステップとして,入力話者が利用する超短遅延音声変換システムに対して,遅延量を変化させた場合に,入力話者の発話様式はどの程度変化するのか.また,変換音声の品質はどの程度変化するのかを調査し,入力話者と超短遅延音声変換システム間のインタラクションを明らかにする.
2020年度には,超短遅延音声変換を実現するために,非パラレル音声コーパスを用いた音声変換する手法に関する研究を実施した.本研究では,従来のパラレルデータを用いた音声変換に比べて,学習データを削減しつつ,高精度に音声変換を実現するための手法を提案している.本研究に関する研究成果は,2021年の国際会議IEEE ICASSPへと投稿しアクセプトされている.また,オープンソースソフトウェアとして公開されており,誰でも自由に利用出来るようになっている.
現在,本枠組みを利用した,超短遅延音声変換に関する研究を進めており,非常に短い遅延でのリアルタイム音声変換が実現している.研究成果は,現在論文に取りまとめられており,今後国際会議等に投稿予定である.今後の研究課題としては,遅延量を小さくするほど,音声変換の品質が低下する事が確認されているため,変換の精度低下を緩和しつつ遅延量を小さくする手法に関して研究を行う.また,同時に,最終ステップの研究も合わせて検討を進める予定である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

3年間の研究課題の3年目を迎えており,申請書に定義した3つのステップの2つ目まで概ね完了しているため.

Strategy for Future Research Activity

研究実績の概要に記載したとおり,超短遅延音声変換の可用性の向上に関して検討を進める予定である.

Causes of Carryover

主たる事由として、計画していた国際会議に参加する事がなくなったため。Covid19の状況によっては、最終年度に不要分を返還する予定である。

Remarks

オープンソースソフトウェアの公開ページ

  • Research Products

    (3 results)

All 2021 2020 Other

All Presentation (2 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

  • [Presentation] CRANK: AN OPEN-SOURCE SOFTWARE FOR NONPARALLEL VOICE CONVERSION BASED ON VECTOR-QUANTIZED VARIATIONAL AUTOENCODER2021

    • Author(s)
      Kazuhiro Kobayashi, Wen-Chin Huang, Yi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Tomoki Toda
    • Organizer
      Proc. IEEE ICASSP
    • Int'l Joint Research
  • [Presentation] Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN2020

    • Author(s)
      K. Kobayashi, T. Toda
    • Organizer
      Proc. EUSIPCO
    • Int'l Joint Research
  • [Remarks] crank

    • URL

      https://github.com/k2kobayashi/crank

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi