2019 Fiscal Year Annual Research Report
Robust voice cloning technologies in noisy environments and its applications
Project/Area Number |
17H04687
|
Research Institution | National Institute of Informatics |
Principal Investigator |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声合成 / デジタルクローン / ディープラーニング / 話者適応 |
Outline of Annual Research Achievements |
話者適応は音声合成を応用した「声のデジタルクローン技術」である。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする頑健な話者適応手法、及び、教師なし話者適応手法を実現することが目的である。これまでに、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。また、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelという新たなニューラル波形モデルを提案した。
本年度は、劣環境で収録された音声を学習データとして利用した「話者エンコーダ」を組み込んだニューラルネットワーク音声合成方式を新たに提案し、教師なし話者適応を劣環境で収録した音声からでも実現できることを示した。また、合成音声の品質も向上させるため、ニューラル波形モデルの改良も鋭意行い、Neural Harmonic-plus-Noise Waveform Modelなど改良版を提案した。さらに、声のデジタルクローン技術を実データに対しても適用し、その有効性を検討すると同時に新たな応用例も模索した。具体的には、落語実演を収録した音声に対して、前述の話者エンコーダを組み込んだなニューラルネットワーク音声合成方式およびニューラル波形モデルを適用することで、噺家が使い分ける様々な役を再現する落語音声合成が実現できることを示した。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|