• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

One model for all sounds: fast and high-quality neural source-filter model for speech and non-speech waveform modeling

研究課題

研究課題/領域番号 19K24371
研究種目

研究活動スタート支援

配分区分基金
審査区分 1002:人間情報学、応用情報学およびその関連分野
研究機関国立情報学研究所

研究代表者

Wang Xin  国立情報学研究所, コンテンツ科学研究系, 特任助教 (60843141)

研究期間 (年度) 2019-08-30 – 2021-03-31
研究課題ステータス 完了 (2020年度)
配分額 *注記
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワードSpeech synthesis / Waveform modeling / Deep learning / Neural network / speech synthesis / waveform modeling / deep learning / neural network
研究開始時の研究の概要

Generating natural-sounding waveforms from a computer is a fundamental speech science topic. In this research, we plan to combine speech science and deep learning. We propose to combine a classical speech production model called source-filter model with neural network, which results in a neural source-filter waveform model. Our model is expected to generate waveforms with a faster speed and improved quality; it is also expected to be applicable not only to speech but also to singing voice and non-speech sounds. Such a new model will be useful in many applications such as text-to-speech.

研究成果の概要

デジタルシステムで自然な音声波形を生成する方法は音声科学の分野において基本的な研究テーマの一つである。本研究では、古典的な信号処理方法と最新の深層学習技術を組み合わせることにより、ニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。NSFモデルは、グーグルに提案されたWaveNetモデルよりもはるかに高速で高品質の波形を生成できることが実証された。 また、NSFモデルを拡張して、harmonic-plus-noiseという古典的な音声モデルを組み込むことができることも実証された。最後に、NSFモデルを音楽オーディオに適用できることも実証された。

研究成果の学術的意義や社会的意義

Deep learningにより音声波形モデリング技術は近年盛んに研究されている。深層学習手法だけを使用して多くのモデルが提案されている一方で、本研究は深層学習と古典的な信号処理技術の組み合わせることにとりニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。 提案されたモデルは、深層学習と信号処理の方法を組み合わせるの方法を示しています。 そして、提案されたモデルは実際のアプリケーションで使用されています。

報告書

(3件)
  • 2020 実績報告書   研究成果報告書 ( PDF )
  • 2019 実施状況報告書
  • 研究成果

    (18件)

すべて 2021 2020 2019 その他

すべて 国際共同研究 (3件) 雑誌論文 (3件) (うち国際共著 1件、 査読あり 3件、 オープンアクセス 3件) 学会発表 (6件) (うち国際学会 5件、 招待講演 3件) 備考 (6件)

  • [国際共同研究] USTC(中国)

    • 関連する報告書
      2020 実績報告書
  • [国際共同研究] University of Edinburgh(英国)

    • 関連する報告書
      2019 実施状況報告書
  • [国際共同研究] Aalto University(フィンランド)

    • 関連する報告書
      2019 実施状況報告書
  • [雑誌論文] Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis2020

    • 著者名/発表者名
      Wang Xin、Takaki Shinji、Yamagishi Junichi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 28 ページ: 402-415

    • DOI

      10.1109/taslp.2019.2956145

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Transferring neural speech waveform synthesizers to musical instrument sounds generation2020

    • 著者名/発表者名
      Zhao Yi, Wang Xin, Juvela Lauri, Yamagishi Junichi
    • 雑誌名

      IEEE International Conference on Acoustics, Speech and Signal Processing

      巻: - ページ: 6269-6273

    • DOI

      10.1109/icassp40776.2020.9053047

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019

    • 著者名/発表者名
      Wang Xin、Yamagishi Junichi
    • 雑誌名

      Proceeding of Speech Synthesis Workshop

      巻: - ページ: 1-6

    • DOI

      10.21437/ssw.2019-1

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform Generation2021

    • 著者名/発表者名
      Ai Yang, Li Haoyu, Wang Xin, Yamagishi Junichi, Ling Zhenhua
    • 学会等名
      2021 IEEE Spoken Language Technology Workshop (SLT)
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Neural auto-regressive, source-filter and glottal vocoders for speech and music signals2020

    • 著者名/発表者名
      Yamagishi Junichi, Wang Xin
    • 学会等名
      ISCA 2020 Speech Processing Courses in Crete
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Tutorial on Neural statistical parametric speech synthesis2020

    • 著者名/発表者名
      Wang Xin
    • 学会等名
      The Speaker and Language Recognition Workshop, Odysessy 2020
    • 関連する報告書
      2020 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Using Cyclic Noise as the Source Signal for Neural Source-Filter-Based Speech Waveform Model2020

    • 著者名/発表者名
      Wang Xin, Yamagishi Junichi
    • 学会等名
      Proc. Interspeech
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Reverberation Modeling for Source-Filter-Based Neural Vocoder2020

    • 著者名/発表者名
      Ai Yang, Wang Xin, Yamagishi Junichi, Ling Zhenhua
    • 学会等名
      Proc. Interspeech
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Neural-network-based waveform modeling for text-to-speech synthesis2019

    • 著者名/発表者名
      Wang Xin
    • 学会等名
      Lecture Series on Natural Language Processing
    • 関連する報告書
      2019 実施状況報告書
    • 招待講演
  • [備考] Home page of neural source-filter waveform models

    • URL

      https://nii-yamagishilab.github.io/samples-nsf/

    • 関連する報告書
      2020 実績報告書 2019 実施状況報告書
  • [備考] Neural source-filter waveform model in Pytorch

    • URL

      https://github.com/nii-yamagishilab/project-NN-Pytorch-scripts

    • 関連する報告書
      2020 実績報告書
  • [備考] Neural source-filter waveform model in CUDA

    • URL

      https://github.com/nii-yamagishilab/project-CURRENNT-public

    • 関連する報告書
      2020 実績報告書
  • [備考] Scripts to use the CUDA implementation

    • URL

      https://github.com/nii-yamagishilab/project-CURRENNT-scripts

    • 関連する報告書
      2020 実績報告書
  • [備考] Neural source-filter waveform model source code

    • URL

      https://github.com/nii-yamagishilab/project-CURRENNT-public

    • 関連する報告書
      2019 実施状況報告書
  • [備考] Scripts to train and use the proposed models

    • URL

      https://github.com/nii-yamagishilab/project-CURRENNT-scripts

    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-09-03   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi