2022 年度研究成果報告書

異なる言語において入力音声の話者・感情を再現する深層学習に基づく多言語音声合成

研究課題

PDF

研究課題/領域番号	20K11862
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	音声合成
研究成果の概要	本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成を実現するために、入力音声の言語・話者・感情それぞれに依存する音声の特徴を分離可能とする多言語音声合成モデルの学習に取り組んできた。特に、言語と話者の特徴を分離するため敵対的学習に基づく多言語音声合成や話者と感情を分離するモデル構造を提案した。また、補助特徴として顔画像を利用するモデルなどを提案した。提案法によって、入力音声と異なる言語において話者の特徴が再現された音声の生成が実現され、より自然なグローバルコミュニケーションの実現が期待される。
自由記述の分野	音声情報処理
研究成果の学術的意義や社会的意義	本研究では、音声に含まれる話者・言語・感情といった3つの特徴に注目し、入力音声と異なる言語において入力音声の声質や感情を再現する多言語音声合成技術に確立に取り組んだ。本研究の成果は、音声翻訳システムに応用することで、自分の話すことができない言語においても、自分の声のまま、感情表現を含む自然なコミュニケーションを実現することが期待される。