Multi-lingual multi-speaker voice conversion system by non-parallel learning method
Project/Area Number |
20H04207
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
|
Co-Investigator(Kenkyū-buntansha) |
鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2023: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2021: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2020: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
|
Keywords | パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習 / 個人性 |
Outline of Research at the Start |
本研究では,音声変換(VC)による話者性操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化することを試みる。
|
Outline of Annual Research Achievements |
本研究の最終目標は,ある言語で話者が話した音声からパラ言語および非言語情報を抽出し,他言語による合成音声にこれらの情報を付加することができる音声 - 音声翻訳(Speech-to-Speech Translation: S2ST)のための多言語間音声変換(Voice Conversion: VC)システムを開発することである。S2STは,ある言語の音声に対して音声認識(Speech-to-Text), 他言語への機械翻訳(Text-to-Text),他言語による音声合成(Text-to-Speech)を通して,別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは,言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では,4年間の研究期間中に,非言語情報の一つである話者属性の自由な変換操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化する。令和5年度は,主に上に記述した具体的課題(c)と(d) について研究を行ってきており,話者特徴については声道形状と声帯音源波形を推定する手法について投稿論文の査読結果を見ながら修正を行った。また,音声了解度については雑音環境での了解度向上に提案手法を適用し,了解度の向上を図った。
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|
Report
(4 results)
Research Products
(17 results)