非並行型学習法にもとづいた多言語間多話者属性変換システム

研究課題

研究課題/領域番号	20H04207
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	北陸先端科学技術大学院大学
研究代表者	赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
研究分担者	鵜木祐史北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円) 2023年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2022年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2020年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
キーワード	パラ言語情報 / 非言語情報 / 音声変換 / 非並行型学習 / 個人性
研究開始時の研究の概要	本研究では，音声変換（VC）による話者性操作を目指して，(1) 多言語間でのVCのための非並行型学習法の提案，(2) この学習法にもとづいた多数話者間の属性変換システムの構築を行う。具体的な課題は，(a) VCのSource言語とTarget言語が異なる場合の話者情報表現，(b) 誰でも話者となりえるシステムとするための多話者対多話者属性変換，(c) 未学習話者の使用を想定した場合の話者特徴の記述法，(d) 変換後の合成音声の品質・了解度の保証，である。これらの課題すべてを深層学習の枠組みで検討したうえで，適切な目的関数を設定することにより全体を最適化することを試みる。
研究成果の概要	本研究では，音声変換（Voice Conversion: VC）による多言語音声へのパラ言語・非言語情報付加を最終目標として設定し，その中心課題の一つである話者性操作を目指して，多言語間での非並行型学習法の提案およびこの学習法にもとづいた多数話者間の属性変換システムの構築を検討する。具体的には，(A) VCのソース言語とターゲット言語が異なる場合の話者情報の扱い方，(B) 多話者対多話者属性変換，(C) 未学習話者を想定した場合の話者特徴の記述法，(D) 変換後の音声の品質・了解度保証である。これらすべてを深層学習の枠組みで検討し，適切な目的関数を設定することにより全体を最適化する。
研究成果の学術的意義や社会的意義	話者のパラ言語および非言語情報を抽出し合成音声に付加することができる音声-音声翻訳のための多言語間音声変換システムを開発するために，その第一歩として，非言語情報の一つである話者属性（性別，年齢，声質等）の自由な変換操作を目指して，多言語間での音声変換のための非並行型学習法を提案し，これにもとづいた変換システムを検討する。これにより，ある言語で話をした話者の声と同じ声質で別の言語の音声を合成できる，しかも使用言語および使用話者を選ばないシステムの構築が可能となり，入力音声に含まれる話者属性を出力音声でも維持できることで，コミュニケーションの質を向上させることができる。

報告書

(5件)

研究成果
(17件)

すべて 2023 2022 2021 2020

すべて雑誌論文 (10件) (うち国際共著 4件、査読あり 10件、オープンアクセス 1件) 学会発表 (7件) (うち招待講演 1件)

[雑誌論文] Increasing Speech Intelligibility by Mimicking Professional Announcers’ Voices and Its Physical Correlates2023
- 著者名/発表者名
  Dung Kim Tran, Masato Akagi, and Masashi Unoki
- 雑誌名
  
  Proc APSIPA2023
  
  巻: - ページ: 1162-1167
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Relationship Between Speakers’ Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022
- 著者名/発表者名
  Kai Li, Xugang Lu, Masato Akagi, Jianwu Dang, Sheng Li, Masashi Unoki
- 雑誌名
  
  Proc. EUSIPCO2022
  
  巻: - ページ: 379-383
- 関連する報告書
  2022 実績報告書
- 査読あり / 国際共著
[雑誌論文] Speak Like a Professional: Increasing Speech Intelligibility by Mimicking Professional Announcer Voice with Voice Conversion2022
- 著者名/発表者名
  Tuan Vu Ho, Maori Kobayashi, Masato Akagi
- 雑誌名
  
  Proc. Interspeech2022
  
  巻: -
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022
- 著者名/発表者名
  Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki
- 雑誌名
  
  Proc. Interspeech2022
  
  巻: -
- 関連する報告書
  2022 実績報告書
- 査読あり / 国際共著
[雑誌論文] Increasing speech intelligibility in noise based on concepts of modulation spectrum and voice conversion to professional announcer voice2022
- 著者名/発表者名
  Masato Akagi
- 雑誌名
  
  Proc. of the 24th International Congress on Acoustics
  
  巻: -
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Deep Hashing for Speaker Identification and Retrieval Based on Auditory Sparse Representation2022
- 著者名/発表者名
  Dung Kim Tran, Masato Akagi, and Masashi Unoki
- 雑誌名
  
  Proc. APSIPA2022
  
  巻: - ページ: 938-944
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] $F_0$-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model2021
- 著者名/発表者名
  Li Yongwei、Tao Jianhua、Erickson Donna、Liu Bin、Akagi Masato
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 29 ページ: 3375-3383
- DOI
  10.1109/taslp.2021.3120585
- 関連する報告書
  2021 実績報告書
- 査読あり / 国際共著
[雑誌論文] Study on Simultaneous Estimation of Glottal Source and Vocal Tract Parameters by ARMAX-LF Model for Speech Analysis/Synthesis2021
- 著者名/発表者名
  Kai Li, Masashi Unoki, Yongwei Li, Jianwu Dang, Masato Akagi
- 雑誌名
  
  Proceeding of APSIPA2021
  
  巻: - ページ: 36-43
- 関連する報告書
  2021 実績報告書
- 査読あり / 国際共著
[雑誌論文] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021
- 著者名/発表者名
  Ho Tuan Vu、Akagi Masato
- 雑誌名
  
  IEEE Access
  
  巻: 9 ページ: 47503-47515
- DOI
  10.1109/access.2021.3063519
- NAID
  120007003859
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020
- 著者名/発表者名
  Ho Tuan Vu、Akagi Masato
- 雑誌名
  
  Proceeding of Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020
  
  巻: - ページ: 140-144
- NAID
  120006952244
- 関連する報告書
  2020 実績報告書
- 査読あり
[学会発表] 確実に情報を伝える音声避難誘導システムの構築に向けて2023
- 著者名/発表者名
  赤木正人
- 学会等名
  日本音響学会音声研究会
- 関連する報告書
  2022 実績報告書
[学会発表] Increasing Speech Intelligibility for Evacuation Guidance by Mimicking Professional Announcers’ Voice: Discussion on Speech Intelligibility and Its Physical Correlates2023
- 著者名/発表者名
  Kimdung Tran, Masato Akagi and Masashi Unoki
- 学会等名
  電子情報通信学会音声研究会
- 関連する報告書
  2022 実績報告書
[学会発表] 音声変形による雑音残響環境での音声了解度向上2023
- 著者名/発表者名
  赤木正人
- 学会等名
  日本音響学会2023年度春季研究発表会
- 関連する報告書
  2022 実績報告書
- 招待講演
[学会発表] Estimation of Glottal Source Parameters of the LF Model Using Feed-forward Neural Network2022
- 著者名/発表者名
  Kai Li, Masato Akagi, Masashi Unoki
- 学会等名
  日本音響学会令和4年春季大会
- 関連する報告書
  2021 実績報告書
[学会発表] Improving spectral detail and F0 modelling for VAE-based cross-lingual voice conversion with adversarial training2021
- 著者名/発表者名
  Tuan Vu Ho and Masato Akagi
- 学会等名
  ASJ '2021 Spring Meeting
- 関連する報告書
  2020 実績報告書
[学会発表] Estimation of Glottal Source Waveforms and Vocal Tract Shapes Based on ARMAX-LF Model2021
- 著者名/発表者名
  Kai Li, Yongwei Li, Jianwu Dang, Masashi Unoki, and Masato Akagi
- 学会等名
  ASJ '2021 Spring Meeting
- 関連する報告書
  2020 実績報告書
[学会発表] Cross-lingual voice conversion with Multi-codebook Hierarchical Vector-Quantized Variational Autoencoder2020
- 著者名/発表者名
  Tuan Vu Ho and Masato Akagi
- 学会等名
  ASJ '2020 Fall Meeting
- 関連する報告書
  2020 実績報告書

非並行型学習法にもとづいた多言語間多話者属性変換システム

研究代表者

赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)

17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)

報告書

研究成果

[雑誌論文] Increasing Speech Intelligibility by Mimicking Professional Announcers’ Voices and Its Physical Correlates2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Relationship Between Speakers’ Physiological Structure and Acoustic Speech Signals: Data-Driven Study Based on Frequency-Wise Attentional Neural Network2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Speak Like a Professional: Increasing Speech Intelligibility by Mimicking Professional Announcer Voice with Voice Conversion2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Increasing speech intelligibility in noise based on concepts of modulation spectrum and voice conversion to professional announcer voice2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Deep Hashing for Speaker Identification and Retrieval Based on Auditory Sparse Representation2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] $F_0$-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Study on Simultaneous Estimation of Glottal Source and Vocal Tract Parameters by ARMAX-LF Model for Speech Analysis/Synthesis2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Cross-Lingual Voice Conversion With Controllable Speaker Individuality Using Variational Autoencoder and Star Generative Adversarial Network2021

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] Non-parallel Voice Conversion based on Hierarchical Latent Embedding Vector Quantized Variational Autoencoder2020

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 確実に情報を伝える音声避難誘導システムの構築に向けて2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Increasing Speech Intelligibility for Evacuation Guidance by Mimicking Professional Announcers’ Voice: Discussion on Speech Intelligibility and Its Physical Correlates2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声変形による雑音残響環境での音声了解度向上2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Estimation of Glottal Source Parameters of the LF Model Using Feed-forward Neural Network2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improving spectral detail and F0 modelling for VAE-based cross-lingual voice conversion with adversarial training2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Estimation of Glottal Source Waveforms and Vocal Tract Shapes Based on ARMAX-LF Model2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Cross-lingual voice conversion with Multi-codebook Hierarchical Vector-Quantized Variational Autoencoder2020

著者名/発表者名

学会等名

関連する報告書

赤木正人北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)