研究課題/領域番号 |
17H04687
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 音声合成 / ディープラーニング / デジタルクローン / 話者適応 |
研究実績の概要 |
話者適応は音声合成を応用した「声のデジタルクローン技術」であり、音声の障害者応用で著しい成功を納めている。本研究は、音声合成用途以外の劣環境で収録された音声を新たにデジタルクローンの対象とすべく、必要な要素技術を先駆的に生み出す。とりわけ、耐雑音・耐反響性を向上させ、高価な音声収録器材を不要とする、ディープラーニングによる話者適応、及び、教師なし話者適応手法を実現することが目的である。
この音声合成の品質劣化は、雑音や反響音だけでなく、収録の際に利用される収録機器によっても起きる。大量生産されているスマートフォンに搭載されているマイクロフォンは、通常収録スタジオで利用される高価なマイクロフォンに比べ、収録可能周波数 領域や感度が大きく異なり、いわゆる「安っぽい」音になる。またマイクロフォンと口の間の距離もより離れたものになることから、近接効果が薄れ、低周波数域を正しく録ることができない。 平成29年度は、この様な安価だが手軽な機材により収録された音声の特徴を、あたかも高価なマイクでスタジオ収録したかの様な 高品質音声へ自動変換することを目標に、スタジオ収録された高品質な音声をスピーカで再生し、種々の安価だが手軽に利用可能な機器により再収録することで、低品質音声と元の高品質音声が対となったパラレルデータベース「DR-VCTK」を構築した。 また、このデータベースをもとに、安価な機器により収録された音声をより高品質な音声へ変換するニューラルネットワークを学習し、さらに音声合成システムを構築するということも行い、研究発表やジャーナル論文の投稿を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
低品質音声と元の高品質音声が対となったパラレルデータベース「DR-VCTK」を構築およびそれを利用したディープラーニングだけでなく、声を目標話者へリアルタイムに変換する技術「声質変換」を競うThe Voice Conversion Challenge 2018も開催し、多くの参加者を得ることができた。またThe Voice Conversion Challenge 2018を通して、声質変換分野全体の加速を行うことができた。
|
今後の研究の推進方策 |
今後は、音声のデジタルクローン技術のさらに利便性を向上せるための研究を邁進する。通常、音声合成では、音素等のバランスや頻度を考慮して人工的に作成された「音素バランス文」を読み上げた音声を利用する。しかしながら、故人の声をデジタルクローンにより再現するという様な応用を考えた場合、新たに読み上げ音声を収録するという選択肢は無く、収録済みの会話や対話音声といった必ずしもテキストデータが付随しない音声データにより音声合成システムを構築する必要がある。平成30年度はこの教師なし話者適応手法の研究を邁進し、また上記低品質音声を変換する技術とも組み合わせ、より手軽に声のデジタルクローンが実現できることを目指す。
|