研究課題
H29年度は,ボコーダと呼ばれる従来の音声生成を用いないボコーダフリー音声合成における制約の獲得を実施した.音声合成の学習には,前年度に確立したアルゴリズム(以降,敵対的音声合成)を利用した.さらに,音声なりすましを利用した合成方式について検討した.・音声波形ドメインにおける特徴量の設計音声波形から得られる特徴量(例えば,スペクトル)は,音声パラメータ(例えば音高)から計算される制約よりも効果的であると予想される.しかしながら,スペクトルは高次元特徴量であるため,敵対的音声合成を直接適用することは困難であった.そこで,音声におけるフィルタバンク方式の考えを利用し,スペクトルを低次元圧縮することで,敵対的音声合成の適用を可能にした.敵対的音声合成の枠組みは,人間の自然音声と合成音声のパラメータ間の確率分布間距離最小化に相当する.本研究では,音声信号処理で利用されるKL距離・JS距離などの最小化を実験的に評価し,最終的に,Wasserstein距離最小化に基づく敵対的音声合成が最も高品質であることを明らかにした.・音声なりすましを利用した合成方式合成音声による音声なりすまし技術を利用して,音声合成の高度化を試みた.具体的には,自然音声と合成音声の識別に有効である変調スペクトル・動的特徴量を導入し,ボコーダフリー敵対的音声合成を高品質化した.その結果,音声なりすまし識別に有効な特徴量が,音声合成の高度化に有効とは限らないことを明らかにした.
29年度が最終年度であるため、記入しない。
すべて 2018 2017
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (14件) (うち国際学会 5件、 招待講演 1件)
IEEE/ACM Transactions on Audio, Speech, and Language Processin
巻: 26 ページ: 84--96
10.1109/TASLP.2017.2761547
IEICE Transactions on Information and Systems
巻: E100-D ページ: pp.1925--1928
10.1587/transinf.2017EDL8034