2020 年度研究成果報告書

One model for all sounds: fast and high-quality neural source-filter model for speech and non-speech waveform modeling

研究課題

PDF

研究課題/領域番号	19K24371
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任助教 (60843141)
研究期間 (年度)	2019-08-30 – 2021-03-31
キーワード	Speech synthesis / Waveform modeling / Deep learning / Neural network
研究成果の概要	デジタルシステムで自然な音声波形を生成する方法は音声科学の分野において基本的な研究テーマの一つである。本研究では、古典的な信号処理方法と最新の深層学習技術を組み合わせることにより、ニューラルソースフィルター波形モデル（NSF）と呼ばれるモデルを提案した。NSFモデルは、グーグルに提案されたWaveNetモデルよりもはるかに高速で高品質の波形を生成できることが実証された。また、NSFモデルを拡張して、harmonic-plus-noiseという古典的な音声モデルを組み込むことができることも実証された。最後に、NSFモデルを音楽オーディオに適用できることも実証された。
自由記述の分野	知覚情報処理
研究成果の学術的意義や社会的意義	Deep learningにより音声波形モデリング技術は近年盛んに研究されている。深層学習手法だけを使用して多くのモデルが提案されている一方で、本研究は深層学習と古典的な信号処理技術の組み合わせることにとりニューラルソースフィルター波形モデル（NSF）と呼ばれるモデルを提案した。提案されたモデルは、深層学習と信号処理の方法を組み合わせるの方法を示しています。そして、提案されたモデルは実際のアプリケーションで使用されています。