研究課題/領域番号 |
20H04207
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
|
研究分担者 |
鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2023年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2022年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
|
キーワード | パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習 / 個人性 |
研究開始時の研究の概要 |
本研究では,音声変換(VC)による話者性操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化することを試みる。
|
研究実績の概要 |
本研究の最終目標は,ある言語で話者が話した音声からパラ言語および非言語情報を抽出し,他言語による合成音声にこれらの情報を付加することができる音声 - 音声翻訳(Speech-to-Speech Translation: S2ST)のための多言語間音声変換(Voice Conversion: VC)システムを開発することである。S2STは,ある言語の音声に対して音声認識(Speech-to-Text), 他言語への機械翻訳(Text-to-Text),他言語による音声合成(Text-to-Speech)を通して,別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは,言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では,4年間の研究期間中に,非言語情報の一つである話者属性の自由な変換操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化する。令和5年度は,主に上に記述した具体的課題(c)と(d) について研究を行ってきており,話者特徴については声道形状と声帯音源波形を推定する手法について投稿論文の査読結果を見ながら修正を行った。また,音声了解度については雑音環境での了解度向上に提案手法を適用し,了解度の向上を図った。
|
現在までの達成度 (段落) |
令和5年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和5年度が最終年度であるため、記入しない。
|