研究課題
話者適応は音声合成を応用した「声のデジタルクローン技術」である。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする頑健な話者適応手法、及び、教師なし話者適応手法を実現することが目的である。これまでに、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。また、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelという新たなニューラル波形モデルを提案した。本年度は、劣環境で収録された音声を学習データとして利用した「話者エンコーダ」を組み込んだニューラルネットワーク音声合成方式を新たに提案し、教師なし話者適応を劣環境で収録した音声からでも実現できることを示した。また、合成音声の品質も向上させるため、ニューラル波形モデルの改良も鋭意行い、Neural Harmonic-plus-Noise Waveform Modelなど改良版を提案した。さらに、声のデジタルクローン技術を実データに対しても適用し、その有効性を検討すると同時に新たな応用例も模索した。具体的には、落語実演を収録した音声に対して、前述の話者エンコーダを組み込んだなニューラルネットワーク音声合成方式およびニューラル波形モデルを適用することで、噺家が使い分ける様々な役を再現する落語音声合成が実現できることを示した。
令和元年度が最終年度であるため、記入しない。
すべて 2020 2019 その他
すべて 国際共同研究 (3件) 雑誌論文 (9件) (うち国際共著 3件、 査読あり 9件、 オープンアクセス 9件) 学会発表 (4件) (うち国際学会 1件、 招待講演 2件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 28 ページ: 402-415
https://doi.org/10.1109/TASLP.2019.2956145
2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
巻: - ページ: 6184-6188
https://doi.org/10.1109/ICASSP40776.2020.9054535
巻: - ページ: 6724-6728
https://doi.org/10.1109/ICASSP40776.2020.9053546
Proc. Interspeech 2019
巻: - ページ: 1298-1302
http://dx.doi.org/10.21437/Interspeech.2019-1357
巻: - ページ: 694-698
http://dx.doi.org/10.21437/Interspeech.2019-2008
Proc. 10th ISCA Speech Synthesis Workshop
巻: - ページ: 1-6
http://dx.doi.org/10.21437/SSW.2019-1
巻: - ページ: 211-216
http://dx.doi.org/10.21437/SSW.2019-38
巻: - ページ: 111-116
http://dx.doi.org/10.21437/SSW.2019-20
2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
巻: - ページ: 200-207
https://doi.org/10.1109/ASRU46091.2019.9004008