• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 研究成果報告書

One model for all sounds: fast and high-quality neural source-filter model for speech and non-speech waveform modeling

研究課題

  • PDF
研究課題/領域番号 19K24371
研究種目

研究活動スタート支援

配分区分基金
審査区分 1002:人間情報学、応用情報学およびその関連分野
研究機関国立情報学研究所

研究代表者

Wang Xin  国立情報学研究所, コンテンツ科学研究系, 特任助教 (60843141)

研究期間 (年度) 2019-08-30 – 2021-03-31
キーワードSpeech synthesis / Waveform modeling / Deep learning / Neural network
研究成果の概要

デジタルシステムで自然な音声波形を生成する方法は音声科学の分野において基本的な研究テーマの一つである。本研究では、古典的な信号処理方法と最新の深層学習技術を組み合わせることにより、ニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。NSFモデルは、グーグルに提案されたWaveNetモデルよりもはるかに高速で高品質の波形を生成できることが実証された。 また、NSFモデルを拡張して、harmonic-plus-noiseという古典的な音声モデルを組み込むことができることも実証された。最後に、NSFモデルを音楽オーディオに適用できることも実証された。

自由記述の分野

知覚情報処理

研究成果の学術的意義や社会的意義

Deep learningにより音声波形モデリング技術は近年盛んに研究されている。深層学習手法だけを使用して多くのモデルが提案されている一方で、本研究は深層学習と古典的な信号処理技術の組み合わせることにとりニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。 提案されたモデルは、深層学習と信号処理の方法を組み合わせるの方法を示しています。 そして、提案されたモデルは実際のアプリケーションで使用されています。

URL: 

公開日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi