• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

Multi-lingual multi-speaker voice conversion system by non-parallel learning method

Research Project

Project/Area Number 20H04207
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

赤木 正人  北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywordsパラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習
Outline of Annual Research Achievements

本研究の最終目標は,ある言語で話者が話した音声からパラ言語および非言語情報を抽出し,他言語による合成音声にこれらの情報を自由に付加することができる音声-音声翻訳(Speech-to-Speech Translation: S2ST)のための多言語間音声変換(Voice Conversion: VC)システムを開発することである。
S2STは,ある言語の音声に対して音声認識(Speech-to-Text), 他言語への機械翻訳(Text-to-Text),他言語による音声合成(Text-to-Speech)を通して,別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは,言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。
本研究では,4年間の研究期間中に,非言語情報の一つである話者属性の自由な変換操作を目指して,(1)多言語間でのVCのための非並行型学習法の提案,(2)この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は,(a)VCのSource言語とTarget言語が異なる場合の話者情報表現,(b)誰でも話者となりえるシステムとするための多話者対多話者属性変換,(c)未学習話者の使用を想定した場合の話者特徴の記述法,(d)変換後の合成音声の品質・了解度の保証,である。これらの課題すべてを深層学習の枠組みで検討したうえで,適切な目的関数を設定することにより全体を最適化する。
令和2年度は,VCのSource言語とTarget言語が異なる場合の話者情報表現のために,話者知覚の知見にもとづいた話者空間を構築し,この空間での言語情報と話者情報の分離法,および,話者の個人性に関連する特徴量の抽出法の研究を行った。詳しい成果は「現在までの進捗状況」の項に記す。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究では,前述した目的を達成するために,令和2年度においては,(1) 言語情報と話者情報の分離,および,(2) 話者知覚の知見にもとづいた話者空間の構築,を中心に研究を行った。また,(3) 話者の個人性に関連する特徴量の抽出方法についても検討を行った。
(1) 言語情報と話者情報の分離では,まず,同一言語で話された音声ではあるが言語内容が異なる音声を入力とする話者情報の分離の検討をおこなった。これは,将来の複数言語を入力とする話者情報の分離への足掛かりとなる。(2) 話者知覚の知見にもとづいた話者空間の構築では,話者空間記述のための因子の検討を行い,これらの因子で張られる空間へ話者情報を展開することに成功した。この空間内の任意の位置での話者情報を持つ音声の合成も視野に入った。(3) 話者の個人性に関連する特徴量の抽出方法については,話者ごとに特徴的な形状を持つ声道形状の分岐管を考慮した声帯音源波形と声道フィルタの同時推定法(ARMA-LFモデル)を提案した。このモデルにより,スペクトル上での零点の振舞いを精度よく推定できるようになり,話者ごとに異なる声道形状の分岐管の推定にも役立つ。
これらの成果は,次に示すように社会展開を行った。2020年10月に上海で開催された複数言語での音声変形に関する国際コンペティションVoice Conversion Challenge 2020において,本グループが提案した新たなvoice conversion法を駆使した変形音声をに出品し,第一位ではなかったものの好成績をあげた。また、この内容を拡張した論文をIEEEのオープンジャーナル(IEEE Access)に投稿し、すでに出版されている。

Strategy for Future Research Activity

本研究では,令和3年度においては,(1) 話者知覚の知見にもとづいた話者空間の構築, (2) 話者空間内の位置情報の書き換えによる話者の属性変換を中心に研究を行う。また,(3) 話者の属性変換による個人性付与あるいは個人性のanonymizationについても検討を行う。
(1) 話者知覚の知見にもとづいた話者空間の構築では,話者空間記述のための因子の検討を行い,これらの因子で張られる空間へ話者情報を展開する。そして,ヒトによる聴取実験結果との比較を行い,因子の評価を行う。話者空間の構築は,この空間内で自由に話者情報を表現し変形するために,この研究において最も重要なステップでとなる。この空間の構築に,音声の受け手である聴取者の知覚特性を加味することで,より柔軟なまた自然性豊かな音声個人性表現法を提案する。
(2) 話者空間内の位置情報の書き換えによる話者の属性変換では,話者空間で表現された音声個人性を変形する(空間内での位置情報を書き換える)ことで,新たな個人性を付与したり個人性情報を曖昧にしたりすることが出来るようなシステムの構築を検討する。まずは同一言語を入力とする場合での話者の属性変換を遂行し,次年度での他言語を入力とする属性変換へつなげる。
(3) 話者の属性変換による個人性付与あるいは個人性のanonymizationでは,話者の属性変換システムの応用として,音声 - 音声翻訳(Speech-to-Speech Translation: S2ST)のための新たな個人性付与や,プライバシー保護への応用として言語情報はそのままで個人性情報を曖昧にした音声を合成する方法などを検討する。

  • Research Products

    (5 results)

All 2021 2020

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021

    • Author(s)
      Ho Tuan Vu、Akagi Masato
    • Journal Title

      IEEE Access

      Volume: 9 Pages: 47503~47515

    • DOI

      10.1109/ACCESS.2021.3063519

    • Peer Reviewed / Open Access
  • [Journal Article] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020

    • Author(s)
      Ho Tuan Vu、Akagi Masato
    • Journal Title

      Proceeding of Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020

      Volume: - Pages: 140~144

    • Peer Reviewed
  • [Presentation] Improving spectral detail and F0 modelling for VAE-based cross-lingual voice conversion with adversarial training2021

    • Author(s)
      Tuan Vu Ho and Masato Akagi
    • Organizer
      ASJ '2021 Spring Meeting
  • [Presentation] Estimation of Glottal Source Waveforms and Vocal Tract Shapes Based on ARMAX-LF Model2021

    • Author(s)
      Kai Li, Yongwei Li, Jianwu Dang, Masashi Unoki, and Masato Akagi
    • Organizer
      ASJ '2021 Spring Meeting
  • [Presentation] Cross-lingual voice conversion with Multi-codebook Hierarchical Vector-Quantized Variational Autoencoder2020

    • Author(s)
      Tuan Vu Ho and Masato Akagi
    • Organizer
      ASJ '2020 Fall Meeting

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi