2020 年度実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究課題

研究課題/領域番号	20H04207
研究機関	北陸先端科学技術大学院大学
研究代表者	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習
研究実績の概要	本研究の最終目標は，ある言語で話者が話した音声からパラ言語および非言語情報を抽出し，他言語による合成音声にこれらの情報を自由に付加することができる音声-音声翻訳（Speech-to-Speech Translation: S2ST）のための多言語間音声変換（Voice Conversion: VC）システムを開発することである。 S2STは，ある言語の音声に対して音声認識（Speech-to-Text）, 他言語への機械翻訳（Text-to-Text），他言語による音声合成（Text-to-Speech）を通して，別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは，言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では，4年間の研究期間中に，非言語情報の一つである話者属性の自由な変換操作を目指して，(1)多言語間でのVCのための非並行型学習法の提案，(2)この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は，(a)VCのSource言語とTarget言語が異なる場合の話者情報表現，(b)誰でも話者となりえるシステムとするための多話者対多話者属性変換，(c)未学習話者の使用を想定した場合の話者特徴の記述法，(d)変換後の合成音声の品質・了解度の保証，である。これらの課題すべてを深層学習の枠組みで検討したうえで，適切な目的関数を設定することにより全体を最適化する。令和2年度は，VCのSource言語とTarget言語が異なる場合の話者情報表現のために，話者知覚の知見にもとづいた話者空間を構築し，この空間での言語情報と話者情報の分離法，および，話者の個人性に関連する特徴量の抽出法の研究を行った。詳しい成果は「現在までの進捗状況」の項に記す。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究では，前述した目的を達成するために，令和2年度においては，(1) 言語情報と話者情報の分離，および，(2) 話者知覚の知見にもとづいた話者空間の構築，を中心に研究を行った。また，(3) 話者の個人性に関連する特徴量の抽出方法についても検討を行った。 (1) 言語情報と話者情報の分離では，まず，同一言語で話された音声ではあるが言語内容が異なる音声を入力とする話者情報の分離の検討をおこなった。これは，将来の複数言語を入力とする話者情報の分離への足掛かりとなる。(2) 話者知覚の知見にもとづいた話者空間の構築では，話者空間記述のための因子の検討を行い，これらの因子で張られる空間へ話者情報を展開することに成功した。この空間内の任意の位置での話者情報を持つ音声の合成も視野に入った。(3) 話者の個人性に関連する特徴量の抽出方法については，話者ごとに特徴的な形状を持つ声道形状の分岐管を考慮した声帯音源波形と声道フィルタの同時推定法（ARMA-LFモデル）を提案した。このモデルにより，スペクトル上での零点の振舞いを精度よく推定できるようになり，話者ごとに異なる声道形状の分岐管の推定にも役立つ。これらの成果は，次に示すように社会展開を行った。2020年10月に上海で開催された複数言語での音声変形に関する国際コンペティションVoice Conversion Challenge 2020において，本グループが提案した新たなvoice conversion法を駆使した変形音声をに出品し，第一位ではなかったものの好成績をあげた。また、この内容を拡張した論文をIEEEのオープンジャーナル（IEEE Access）に投稿し、すでに出版されている。
今後の研究の推進方策	本研究では，令和3年度においては，(1) 話者知覚の知見にもとづいた話者空間の構築， (2) 話者空間内の位置情報の書き換えによる話者の属性変換を中心に研究を行う。また，(3) 話者の属性変換による個人性付与あるいは個人性のanonymizationについても検討を行う。 (1) 話者知覚の知見にもとづいた話者空間の構築では，話者空間記述のための因子の検討を行い，これらの因子で張られる空間へ話者情報を展開する。そして，ヒトによる聴取実験結果との比較を行い，因子の評価を行う。話者空間の構築は，この空間内で自由に話者情報を表現し変形するために，この研究において最も重要なステップでとなる。この空間の構築に，音声の受け手である聴取者の知覚特性を加味することで，より柔軟なまた自然性豊かな音声個人性表現法を提案する。 (2) 話者空間内の位置情報の書き換えによる話者の属性変換では，話者空間で表現された音声個人性を変形する（空間内での位置情報を書き換える）ことで，新たな個人性を付与したり個人性情報を曖昧にしたりすることが出来るようなシステムの構築を検討する。まずは同一言語を入力とする場合での話者の属性変換を遂行し，次年度での他言語を入力とする属性変換へつなげる。 (3) 話者の属性変換による個人性付与あるいは個人性のanonymizationでは，話者の属性変換システムの応用として，音声 - 音声翻訳（Speech-to-Speech Translation: S2ST）のための新たな個人性付与や，プライバシー保護への応用として言語情報はそのままで個人性情報を曖昧にした音声を合成する方法などを検討する。

研究成果
(5件)

すべて 2021 2020

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (3件)

[雑誌論文] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021
- 著者名/発表者名
  Ho Tuan Vu、Akagi Masato
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 47503～47515
- DOI
  10.1109/ACCESS.2021.3063519
- 査読あり / オープンアクセス
[雑誌論文] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020
- 著者名/発表者名
  Ho Tuan Vu、Akagi Masato
- 雑誌名
  
  Proceeding of Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020
  
  巻: - ページ: 140～144
- 査読あり
[学会発表] Improving spectral detail and F0 modelling for VAE-based cross-lingual voice conversion with adversarial training2021
- 著者名/発表者名
  Tuan Vu Ho and Masato Akagi
- 学会等名
  ASJ '2021 Spring Meeting
[学会発表] Estimation of Glottal Source Waveforms and Vocal Tract Shapes Based on ARMAX-LF Model2021
- 著者名/発表者名
  Kai Li, Yongwei Li, Jianwu Dang, Masashi Unoki, and Masato Akagi
- 学会等名
  ASJ '2021 Spring Meeting
[学会発表] Cross-lingual voice conversion with Multi-codebook Hierarchical Vector-Quantized Variational Autoencoder2020
- 著者名/発表者名
  Tuan Vu Ho and Masato Akagi
- 学会等名
  ASJ '2020 Fall Meeting

2020 年度 実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究代表者

赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020

著者名/発表者名

雑誌名

[学会発表] Improving spectral detail and F0 modelling for VAE-based cross-lingual voice conversion with adversarial training2021

著者名/発表者名

学会等名

[学会発表] Estimation of Glottal Source Waveforms and Vocal Tract Shapes Based on ARMAX-LF Model2021

著者名/発表者名

学会等名

[学会発表] Cross-lingual voice conversion with Multi-codebook Hierarchical Vector-Quantized Variational Autoencoder2020

著者名/発表者名

学会等名

2020 年度実績報告書

赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)