2018 年度研究成果報告書

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

研究課題

PDF

研究課題/領域番号	16K16096
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	国立情報学研究所
研究代表者	高木信二国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	音声合成 / DNN
研究成果の概要	本課題では、従来のテキスト音声合成に含まれるヒューリスティックに用いられてきた処理を取り除き、Deep Neural Networkを用いた音声波形のダイレクトモデリング手法に基づくテキスト音声合成の実現を目的とする。ヒューリスティックな処理を除いた単純な窓掛とフーリエ変換を用いて得られたスペクトルのモデル化、位相情報も含めたスペクトルのモデル化、スペクトル誤差を用いた音声波形のモデル学習を検討し、音声波形のダイレクトモデリング手法を実現した。
自由記述の分野	音声情報処理
研究成果の学術的意義や社会的意義	音声インターフェースの核となる技術であるテキスト音声合成の性能改善のため、Deep Neural Networkを用いた音声波形モデリングが盛んに研究されている。本課題では、非常に注目されているこの研究トピックについて取り組み、テキスト音声合成の性能改善を行った。テキスト音声合成を用いる既存のシステムの性能改善，性能改善に伴う応用アプリの普及等多くの波及効果を期待できる。