研究課題/領域番号 |
20K11862
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 音声合成 / 音声情報処理 |
研究開始時の研究の概要 |
本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成技術を確立する。深層学習に基づく音声合成において敵対的学習を導入し、言語・話者・感情に依存する音声の特徴を分離しながらモデル化することが可能なモデル構造・モデル学習法を明らかにする。さらに、異なる言語において入力音声の話者・感情を再現するための補助特徴量として利用者の顔画像や入力テキストを利用する手法を開発する。任意の言語・話者・感情の組み合わせの合成音声を生成可能な多言語音声合成技術を開発することで、自分の声のまま感情も伝えることができる自然な異言語間コミュニケーションの実現を目指す。
|
研究成果の概要 |
本研究では、入力音声と異なる言語において入力音声の話者・感情を再現する多言語音声合成を実現するために、入力音声の言語・話者・感情それぞれに依存する音声の特徴を分離可能とする多言語音声合成モデルの学習に取り組んできた。特に、言語と話者の特徴を分離するため敵対的学習に基づく多言語音声合成や話者と感情を分離するモデル構造を提案した。また、補助特徴として顔画像を利用するモデルなどを提案した。提案法によって、入力音声と異なる言語において話者の特徴が再現された音声の生成が実現され、より自然なグローバルコミュニケーションの実現が期待される。
|
研究成果の学術的意義や社会的意義 |
本研究では、音声に含まれる話者・言語・感情といった3つの特徴に注目し、入力音声と異なる言語において入力音声の声質や感情を再現する多言語音声合成技術に確立に取り組んだ。本研究の成果は、音声翻訳システムに応用することで、自分の話すことができない言語においても、自分の声のまま、感情表現を含む自然なコミュニケーションを実現することが期待される。
|