研究実績の概要 |
本研究の最終目標は,ある言語で話者が話した音声からパラ言語および非言語情報を抽出し,他言語による合成音声にこれらの情報を付加することができる音声 - 音声翻訳(Speech-to-Speech Translation: S2ST)のための多言語間音声変換(Voice Conversion: VC)システムを開発することである。S2STは,ある言語の音声に対して音声認識(Speech-to-Text), 他言語への機械翻訳(Text-to-Text),他言語による音声合成(Text-to-Speech)を通して,別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは,言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では,4年間の研究期間中に,非言語情報の一つである話者属性の自由な変換操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化する。令和5年度は,主に上に記述した具体的課題(c)と(d) について研究を行ってきており,話者特徴については声道形状と声帯音源波形を推定する手法について投稿論文の査読結果を見ながら修正を行った。また,音声了解度については雑音環境での了解度向上に提案手法を適用し,了解度の向上を図った。
|