研究課題/領域番号 |
19K24371
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任助教 (60843141)
|
研究期間 (年度) |
2019-08-30 – 2021-03-31
|
キーワード | Speech synthesis / Waveform modeling / Deep learning / Neural network |
研究成果の概要 |
デジタルシステムで自然な音声波形を生成する方法は音声科学の分野において基本的な研究テーマの一つである。本研究では、古典的な信号処理方法と最新の深層学習技術を組み合わせることにより、ニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。NSFモデルは、グーグルに提案されたWaveNetモデルよりもはるかに高速で高品質の波形を生成できることが実証された。 また、NSFモデルを拡張して、harmonic-plus-noiseという古典的な音声モデルを組み込むことができることも実証された。最後に、NSFモデルを音楽オーディオに適用できることも実証された。
|
自由記述の分野 |
知覚情報処理
|
研究成果の学術的意義や社会的意義 |
Deep learningにより音声波形モデリング技術は近年盛んに研究されている。深層学習手法だけを使用して多くのモデルが提案されている一方で、本研究は深層学習と古典的な信号処理技術の組み合わせることにとりニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。 提案されたモデルは、深層学習と信号処理の方法を組み合わせるの方法を示しています。 そして、提案されたモデルは実際のアプリケーションで使用されています。
|