2020 年度研究成果報告書

Encoder Factorization for Capturing Dialect and Articulation Level in End-to-End Speech Synthesis

研究課題

PDF

研究課題/領域番号	19K24372
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
研究期間 (年度)	2019-08-30 – 2021-03-31
キーワード	Speech synthesis / Speaker modeling / Deep learning / Neural network
研究成果の概要	現在の音声合成技術は自然な音声を生成することが可能であるが、方言など目標話者の特性を完全に再現する事は困難である。本研究では、どの種類の話者埋め込み表現が最も効果的に話者性を再現するかについて調査を行い、Learnable DictionaryEncodingが最もうまく機能することを確認した。同様の方言埋め込み表現が、合成音声の方言を改善するのに役立つことも確認。最後に、人工的に作成した学習データと理想的ではない録音条件の音声データの両方を使用したデータ拡張方法についても調査し、これを用いることでモデルから予測された合成音声の自然さがさらに改善することも示した。
自由記述の分野	Text-to-speech synthesis
研究成果の学術的意義や社会的意義	本課題では、end-to-end音声合成における合成音声の話者性や方言再現性の向上のため、エンコーダの因子を制御する方法を調査した。話者の個性や特性をより適切に再現することにより、より多くの目標話者を音声合成システムにおいて利用することが可能になり、技術の応用先が広がると期待される。