2017 Fiscal Year Annual Research Report
High-quality speech synthesis based on automatically-retrieved speech constraints
Project/Area Number |
16H06681
|
Research Institution | The University of Tokyo |
Principal Investigator |
高道 慎之介 東京大学, 大学院情報理工学系研究科, 特任助教 (90784330)
|
Project Period (FY) |
2016-08-26 – 2018-03-31
|
Keywords | 音声合成 / 音声なりすまし / 深層学習 |
Outline of Annual Research Achievements |
H29年度は,ボコーダと呼ばれる従来の音声生成を用いないボコーダフリー音声合成における制約の獲得を実施した.音声合成の学習には,前年度に確立したアルゴリズム(以降,敵対的音声合成)を利用した.さらに,音声なりすましを利用した合成方式について検討した. ・音声波形ドメインにおける特徴量の設計 音声波形から得られる特徴量(例えば,スペクトル)は,音声パラメータ(例えば音高)から計算される制約よりも効果的であると予想される.しかしながら,スペクトルは高次元特徴量であるため,敵対的音声合成を直接適用することは困難であった.そこで,音声におけるフィルタバンク方式の考えを利用し,スペクトルを低次元圧縮することで,敵対的音声合成の適用を可能にした.敵対的音声合成の枠組みは,人間の自然音声と合成音声のパラメータ間の確率分布間距離最小化に相当する.本研究では,音声信号処理で利用されるKL距離・JS距離などの最小化を実験的に評価し,最終的に,Wasserstein距離最小化に基づく敵対的音声合成が最も高品質であることを明らかにした. ・音声なりすましを利用した合成方式 合成音声による音声なりすまし技術を利用して,音声合成の高度化を試みた.具体的には,自然音声と合成音声の識別に有効である変調スペクトル・動的特徴量を導入し,ボコーダフリー敵対的音声合成を高品質化した.その結果,音声なりすまし識別に有効な特徴量が,音声合成の高度化に有効とは限らないことを明らかにした.
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(16 results)