Project/Area Number |
20H04207
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
Akagi Masato 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
|
Co-Investigator(Kenkyū-buntansha) |
鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2023: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2021: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2020: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
|
Keywords | パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習 / 個人性 |
Outline of Research at the Start |
本研究では,音声変換(VC)による話者性操作を目指して,(1) 多言語間でのVCのための非並行型学習法の提案,(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a) VCのSource言語とTarget言語が異なる場合の話者情報表現,(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c) 未学習話者の使用を想定した場合の話者特徴の記述法,(d) 変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化することを試みる。
|
Outline of Final Research Achievements |
This study aims to enhance paralinguistic and non-linguistic information in multilingual speech through Voice Conversion (VC), with the manipulation of speaker identity in speech as one of its central objectives. To achieve this, we propose a non-parallel learning method for cross-lingual VC and explore the construction of a multi-speaker attribute conversion system based on this learning approach. Specifically, the issues addressed include (A) handling speaker information when the source and target languages of VC are different, (B) achieving multi-speaker-to-multi-speaker attribute conversion, (C) describing speaker characteristics when considering the use of unseen speakers, and (D) ensuring the quality and intelligibility of synthesized speech after conversion. By addressing these challenges within the framework of deep learning and optimizing the entire process through appropriate objective functions, we attempt to achieve comprehensive optimization.
|
Academic Significance and Societal Importance of the Research Achievements |
話者のパラ言語および非言語情報を抽出し合成音声に付加することができる音声-音声翻訳のための多言語間音声変換システムを開発するために,その第一歩として,非言語情報の一つである話者属性(性別,年齢,声質等)の自由な変換操作を目指して,多言語間での音声変換のための非並行型学習法を提案し,これにもとづいた変換システムを検討する。これにより,ある言語で話をした話者の声と同じ声質で別の言語の音声を合成できる,しかも使用言語および使用話者を選ばないシステムの構築が可能となり,入力音声に含まれる話者属性を出力音声でも維持できることで,コミュニケーションの質を向上させることができる。
|