現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
近年のテキスト音声合成の分野でその有効性が示されている,入出力の時間的な対応情報をモデル自体が推定できるEnd-to-End構造を歌声の合成に応用する検討も進め,その一部を発表することができた研究(村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一, ``楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討,'' 日本音響学会2019年秋季研究発表会, pp. 943-944, 滋賀, 日本, 2019年9月)について述べる. これまでの歌声合成では,楽譜から音響パラメータへの変換モジュール,発声タイミングの推定モジュール,および波形生成モジュールなどが,それぞれ独立に定義されて最適化されてきた.より高品質な歌声を合成するためには,システム全体として最適化可能なEnd-to-Endモデルが必要と考えられる.音声合成の分野では近年,アテンション機構を含むsequence-to-sequenceモデルにより,音響パラメータと時間構造の同時モデリングが提案されているが,歌声合成のように一つのシーケンスが長い場合は,音響パラメータと時間構造の対応関係の探索空間が広くなってしまい,そのまま流用することができない.本研究では楽譜の時間情報や音高情報を探索に利用することでこの問題を解決し,歌声合成においても音響パラメータと時間構造の同時モデリングが可能であることを示した.
|