2020 Fiscal Year Research-status Report
A Study of Deep Gaussian Process Based Statistcal Speech Synthesis
Project/Area Number |
19K20292
|
Research Institution | The University of Tokyo |
Principal Investigator |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 講師 (50749124)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | ガウス過程 / 音声合成 / 深層学習 / end-to-endモデル / 深層ガウス過程 / 音声情報処理 |
Outline of Annual Research Achievements |
未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を用いた音声合成において,より柔軟性の高いモデルを実現する手法として,本年度は以下の成果を得た. 1.音声は時系列上で連続的に変化する特徴があり,発話系列全体でのモデル化を行う必要がある.本研究では,時系列情報に広く使用されるリカレント構造を,深層ガウス過程の枠組みで行うsimple recurrent unit (SRU)-DGPを提案し,合成音声の品質向上を実現した. 2. さらに,テキストから専門的な言語知識なしに音声波形を予測するend-to-end音声合成にDGP音声合成を適用する手法の検討を行った.具体的には従来法でニューラルネットワークで表現されていた層をガウス過程に置き換える手法を提案し,従来手法に比べ自然性の向上を確認した.また,言語処理において有効なself-attention層がガウス過程においても実現可能で,end-to-end DGP音声合成で有効であることを示した. 3. DGPに基づく音声モデリングを音声特徴量の予測だけでなく波形生成へ応用するため,畳み込み層の拡張を行った.具体的には音声の調波構造を考慮した調波畳み込みを利用することで,敵対的生成ネットワーク(GAN)に基づく波形生成モデルの性能が向上することを確認した. 4. DGPはベイズニューラルネットワークの中間層の素子数を有限から無限に拡張することで実現できる.そこで,ベイズニューラルネットワーク音声合成とDGP音声合成の中間的なモデルの性能調査を行い,特定の条件ではベイズニューラルネットワークがDGP音声合成と同程度の性能を実現できることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は,深層ガウス過程(DGP)のより複雑なモデルへの拡張可能性を示すことである.リカレント構造だけでなく,end-to-endモデルに用いられる注意機構構造やself-attentionの導入に成功しており,順調に進んでいると言える.
|
Strategy for Future Research Activity |
当初の計画通り,入力の言語特徴量系列と出力の音声特徴量系列の変換をより柔軟に行う手法である注意機構モデルを,DGP音声合成に組み込んだモデルの評価を進める.このとき,カーネル法の特徴を考慮したself-attentionや畳み込み層との複合など,合成音声の自然性向上を目指す. また,従来の音声特徴量を予測する音声合成モデルだけでなく,音声特徴量から音声波形を生成するニューラルボコーダに,畳み込み構造を用いたDGPを用いることで,DGPの拡張可能性の調査を行う.
|
Causes of Carryover |
年度内に論文の公開および国際会議での発表が行えなかったため,次年度での使用を行う.最終年度は主に論文公開・国際会議での成果発表が主な予算の使途である.
|
Research Products
(8 results)