研究課題/領域番号 |
19K24371
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任助教 (60843141)
|
研究期間 (年度) |
2019-08-30 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | Speech synthesis / Waveform modeling / Deep learning / Neural network / speech synthesis / waveform modeling / deep learning / neural network |
研究開始時の研究の概要 |
Generating natural-sounding waveforms from a computer is a fundamental speech science topic. In this research, we plan to combine speech science and deep learning. We propose to combine a classical speech production model called source-filter model with neural network, which results in a neural source-filter waveform model. Our model is expected to generate waveforms with a faster speed and improved quality; it is also expected to be applicable not only to speech but also to singing voice and non-speech sounds. Such a new model will be useful in many applications such as text-to-speech.
|
研究成果の概要 |
デジタルシステムで自然な音声波形を生成する方法は音声科学の分野において基本的な研究テーマの一つである。本研究では、古典的な信号処理方法と最新の深層学習技術を組み合わせることにより、ニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。NSFモデルは、グーグルに提案されたWaveNetモデルよりもはるかに高速で高品質の波形を生成できることが実証された。 また、NSFモデルを拡張して、harmonic-plus-noiseという古典的な音声モデルを組み込むことができることも実証された。最後に、NSFモデルを音楽オーディオに適用できることも実証された。
|
研究成果の学術的意義や社会的意義 |
Deep learningにより音声波形モデリング技術は近年盛んに研究されている。深層学習手法だけを使用して多くのモデルが提案されている一方で、本研究は深層学習と古典的な信号処理技術の組み合わせることにとりニューラルソースフィルター波形モデル(NSF)と呼ばれるモデルを提案した。 提案されたモデルは、深層学習と信号処理の方法を組み合わせるの方法を示しています。 そして、提案されたモデルは実際のアプリケーションで使用されています。
|