研究課題
基盤研究(B)
本研究では、音声・顔画像の関係をモデル化する技術や、顔画像から得られた情報に基づき多様な声質の音声を生成可能とする技術を確立することで、音声データがない場合においても顔画像からその人物の声を予測し、その人物の声を再現した音声合成システムを構築可能とするクロスモーダルボイスクローニング技術を確立する。本研究によって、事故などで自身の声を失ってしまった人物の声を、音声データを用いることなく再現し、自分の声による自然なコミュニケーションの実現を目指す。