2021 年度実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究課題

研究課題/領域番号	20H04207
研究機関	北陸先端科学技術大学院大学
研究代表者	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習
研究実績の概要	本研究の最終目標は，ある言語で話者が話した音声からパラ言語および非言語情報を抽出し，他言語による合成音声にこれらの情報を自由に付加することができる音声 - 音声翻訳（Speech-to-Speech Translation: S2ST）のための多言語間音声変換（Voice Conversion: VC）システムを開発することである。 S2STは，ある言語の音声に対して音声認識（Speech-to-Text）, 他言語への機械翻訳（Text-to-Text），他言語による音声合成（Text-to-Speech）を通して，別の言語の翻訳済み音声を出力するシステムである。現有のS2STでは，言語情報は伝達されるが効果的な音声コミュニケーションに不可欠である話者の個人性などの非言語情報や強調などのパラ言語情報は伝達されない。本研究では，4年間の研究期間中に，非言語情報の一つである話者属性の自由な変換操作を目指して，(1) 多言語間でのVCのための非並行型学習法の提案，(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は，(a) VCのSource言語とTarget言語が異なる場合の話者情報表現，(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換，(c) 未学習話者の使用を想定した場合の話者特徴の記述法，(d) 変換後の合成音声の品質・了解度の保証，である。これらの課題すべてを深層学習の枠組みで検討したうえで，適切な目的関数を設定することにより全体を最適化する。令和３年度は，VCのSource言語とTarget言語が異なる場合の話者情報表現のために，話者の個人性に関連する特徴量の抽出法に焦点をあてて研究を行った。詳しい成果は，「現在までの進捗状況」の項に記す。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究では，前述した目的を達成するために，令和３年度においては，令和２年度に引き続き(1) 言語情報と話者情報の分離，および，(2) 話者知覚の知見にもとづいた話者空間の構築，の研究を行うとともに，(3) 話者の個人性に関連する特徴量の抽出方法に焦点をあてた。 (1) 言語情報と話者情報の分離および(2) 話者知覚の知見にもとづいた話者空間の構築では，言語内容が多岐にわたる音声を入力とする話者情報（性別および発話スタイルの分離）の検討をおこなった。性別が異なる複数のプロのアナウンサーと素人の朗読音声を対象として，言語内容によらない性別および発話スタイルの抽出分離に成功した。これらを因子とする話者空間を構築し，その空間の中で発話スタイルの変換を行ったところ，この空間内の任意の位置での話者情報を持つ音声の合成が可能となった。プロのアナウンサーの発話スタイルを真似た合成音声は，アナウンサー音声に特有のClear Speech特性を持つ音声となった。これは，将来の複数言語を入力とする話者情報の分離・変形・再合成への足掛かりとなる。この成果は，音声研究に関する国際会議に投稿中である。 (3) 話者の個人性に関連する特徴量の抽出方法については，話者ごとに特徴的な形状を持つ分岐管を考慮した声道伝達特性と声帯音源波形を音声波形から同時に推定できる手法（ARMAX-LFモデル）を提案し，音声分析・合成に適用した。このモデルにより，スペクトル上での零点の振舞いを精度よく推定できるようになった。この成果は2021年にオンラインで開催された国際会議APSIPA2021において発表された。また，分岐管を考慮しないARX-LFモデルの声帯音源波形推定の精度向上を目指して手法を洗練した。この成果はIEEEの雑誌に掲載された。
今後の研究の推進方策	前年度までは，主に，研究実績の概要に記述した具体的課題(a) 話者情報表現および (b) 話者属性変換について研究を行ってきた。話者属性変換法については目途が立ってきたので，R4年度は，(1) 変換法をより洗練するとともに，(2) 具体的課題(a), (c)（話者情報表現および話者特徴の記述法）を中心に研究を行う。 (1) 話者属性の変換法：発話スタイル（アナウンサー音声Clear Speech）の模擬，性別変換（ジェンダーレス音声）話者の属性変換では，話者空間で表現された音声個人性を変形する（空間内での位置情報を書き換える）ことで，新たな個人性を付与したり個人性情報を曖昧にしたりすることが出来るようなシステムの構築を検討する。変換のターゲットとして，発話スタイル（アナウンサー音声Clear Speech）の模擬を引き続き実施するとともに，話者性の一つの要因である性別の変換に関してジェンダーレス音声の合成を試みる。 (2) 話者情報表現および話者特徴の記述法：声道，声帯音源推定の高精度化，推定した特徴量を話者変換の特徴として使用話者性を多く含む特徴として，声道形状と声帯音源波形が知られている。これらは，性別，年齢，声質等の知覚に深くかかわっている。このため，音声波形から声道形状と声帯音源波形をより高精度で推定する手法の提案，および，推定した特徴量を話者変換のための特徴として使用することを検討する。そして，他言語を入力とする属性変換および変換後の合成音声の品質・了解度の保証へとつなげる。 (3) これらの研究から得られた成果を取りまとめ学会発表を行う。

研究成果
(3件)

すべて 2022 2021

すべて雑誌論文 (2件) (うち国際共著 2件、査読あり 2件) 学会発表 (1件)

[雑誌論文] $F_0$-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model2021
- 著者名/発表者名
  Li Yongwei、Tao Jianhua、Erickson Donna、Liu Bin、Akagi Masato
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 29 ページ: 3375～3383
- DOI
  10.1109/TASLP.2021.3120585
- 査読あり / 国際共著
[雑誌論文] Study on Simultaneous Estimation of Glottal Source and Vocal Tract Parameters by ARMAX-LF Model for Speech Analysis/Synthesis2021
- 著者名/発表者名
  Kai Li, Masashi Unoki, Yongwei Li, Jianwu Dang, Masato Akagi
- 雑誌名
  
  Proceeding of APSIPA2021
  
  巻: - ページ: 36～43
- 査読あり / 国際共著
[学会発表] Estimation of Glottal Source Parameters of the LF Model Using Feed-forward Neural Network2022
- 著者名/発表者名
  Kai Li, Masato Akagi, Masashi Unoki
- 学会等名
  日本音響学会令和4年春季大会

2021 年度 実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究代表者

赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] $F_0$-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Study on Simultaneous Estimation of Glottal Source and Vocal Tract Parameters by ARMAX-LF Model for Speech Analysis/Synthesis2021

著者名/発表者名

雑誌名

[学会発表] Estimation of Glottal Source Parameters of the LF Model Using Feed-forward Neural Network2022

著者名/発表者名

学会等名

2021 年度実績報告書

赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (20242571)