研究課題
話者適応は音声合成を応用した「声のデジタルクローン技術」であり、音声の障害者応用で著しい成功を納めている。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする、ディープラーニングによる話者適応、及び、教師なし話者適応手法を実現することが目的である。本年度は、音声のデジタルクローン技術のさらに利便性を向上せる教師なし適応についての研究を邁進し、業績をあげた。通常、音声合成では、音素等のバランスや頻度を考慮して人工的に作成された「音素バランス文」を読み上げた音声を利用する。しかしながら、故人の声をデジタルクローンにより再現するという様な応用を考えた場合、新たに読み上げ音声を収録するという選択肢は無く、収録済みの会話や対話音声といった必ずしもテキストデータが付随しない音声データにより音声合成システムを構築する必要がある。そこで、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。さらに、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelなどの新たなニューラル波形モデルを提案し、複数の論文発表を行った。
1: 当初の計画以上に進展している
当初の目的である教師なし話者適応技術の開発だけでなく、Neural source-filter modelなどの新たなニューラル波形モデルの開発にも成功したことから、当初の計画以上に進展していると判断した。
最終年度である本年度は、提案教師なし適応技術をより緻密に評価し、ジャーナル論文化することを目指す。また、これまで提案・開発してきた要素技術を統合し、劣悪環境に頑健な提案話者適応技術を、障碍者応用等の実データに対して適用し、その有効性を検討する。例えば、病気や疾患ですでに声を失ってしまったが、過去の音声データを記録し保有する障碍者も、本提案技術により個人用音声合成システムを利用できる可能性が非常に高くなる事から、その改善程度を評価する。
すべて 2019 2018 その他
すべて 国際共同研究 (2件) 雑誌論文 (13件) (うち国際共著 5件、 査読あり 13件、 オープンアクセス 12件) 学会発表 (10件) (うち国際学会 10件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 27(2) ページ: 244-254
https://doi.org/10.1109/TASLP.2018.2877465
2019 IEEE International Conference on Acoustics, Speech and Signal Processing
巻: - ページ: 印刷中
IEEE/ACM Transactions on Audio, Speech and Language Processing
巻: 26(9) ページ: 1658-1670
https://doi.org/10.1109/TASLP.2018.2835720
Proc. Interspeech 2018
巻: - ページ: 3062--3066
http://dx.doi.org/10.21437/Interspeech.2018-2467
巻: - ページ: 2012--2016
http://dx.doi.org/10.21437/Interspeech.2018-1635
巻: - ページ: 2494--2498
http://dx.doi.org/10.21437/Interspeech.2018-1791
IEEE Access
巻: 6(1) ページ: 60478-60488
https://doi.org/10.1109/ACCESS.2018.2872060
2018 IEEE Spoken Language Technology Workshop (SLT)
巻: - ページ: 610-617
https://doi.org/10.1109/SLT.2018.8639659