顔画像から声を再現するクロスモーダルボイスクローニング音声合成技術の研究

研究課題

研究課題/領域番号	24K02959
研究種目	基盤研究(B)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
研究分担者	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究期間 (年度)	2024-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円) 2026年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円) 2025年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円) 2024年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
キーワード	音声合成
研究開始時の研究の概要	本研究では、音声・顔画像の関係をモデル化する技術や、顔画像から得られた情報に基づき多様な声質の音声を生成可能とする技術を確立することで、音声データがない場合においても顔画像からその人物の声を予測し、その人物の声を再現した音声合成システムを構築可能とするクロスモーダルボイスクローニング技術を確立する。本研究によって、事故などで自身の声を失ってしまった人物の声を、音声データを用いることなく再現し、自分の声による自然なコミュニケーションの実現を目指す。