2018 Fiscal Year Annual Research Report
Robust voice cloning technologies in noisy environments and its applications
Project/Area Number |
17H04687
|
Research Institution | National Institute of Informatics |
Principal Investigator |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 音声合成 / ディープラーニング / デジタルクローン / 話者適応 |
Outline of Annual Research Achievements |
話者適応は音声合成を応用した「声のデジタルクローン技術」であり、音声の障害者応用で著しい成功を納めている。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。具体的には、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする、ディープラーニングによる話者適応、及び、教師なし話者適応手法を実現することが目的である。
本年度は、音声のデジタルクローン技術のさらに利便性を向上せる教師なし適応についての研究を邁進し、業績をあげた。通常、音声合成では、音素等のバランスや頻度を考慮して人工的に作成された「音素バランス文」を読み上げた音声を利用する。しかしながら、故人の声をデジタルクローンにより再現するという様な応用を考えた場合、新たに読み上げ音声を収録するという選択肢は無く、収録済みの会話や対話音声といった必ずしもテキストデータが付随しない音声データにより音声合成システムを構築する必要がある。そこで、テキストデータが付随しない音声データからでも手軽に声のデジタルクローン出来るように、Multi-modal architectureという新たなニューラルネットワーク構造を提案し、これにより話者適応が音声のみからでも行えることを示した。
さらに、合成音声の品質はボコーダという音響特徴量を音声波形信号に変換する技術により大きく制約されてしまうことから、このボコーダの改良も鋭意行った。Neural source-filter modelなどの新たなニューラル波形モデルを提案し、複数の論文発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の目的である教師なし話者適応技術の開発だけでなく、Neural source-filter modelなどの新たなニューラル波形モデルの開発にも成功したことから、当初の計画以上に進展していると判断した。
|
Strategy for Future Research Activity |
最終年度である本年度は、提案教師なし適応技術をより緻密に評価し、ジャーナル論文化することを目指す。また、これまで提案・開発してきた要素技術を統合し、劣悪環境に頑健な提案話者適応技術を、障碍者応用等の実データに対して適用し、その有効性を検討する。例えば、病気や疾患ですでに声を失ってしまったが、過去の音声データを記録し保有する障碍者も、本提案技術により個人用音声合成システムを利用できる可能性が非常に高くなる事から、その改善程度を評価する。
|