2019 年度実績報告書

PRISM: 選択的情報マスキングを可能とする次世代音声プライバシー保護技術

研究課題

研究課題/領域番号	18H04112
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	音声情報処理 / 音声プライバシー / 音声合成
研究実績の概要	本研究では、音声に含まれるプライバシー情報を分離・変換可能な形で音声をモデル化することで、音声モデリングによる統一的な枠組みによって選択的にプライバシー情報を保護可能にする、次世代音声プライバシー保護技術 (PRISM: PRIvacy Selecting Masking)を確立することを目的とする。実空間における音声プライバシー保護技術の確立については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討を進めてきた。利用者の合成音声を用いたマスキング信号の生成に取り組み、主観評価実験により、利用者の声質の合成音声を用いることで、ホワイトノイズやピンクノイズ、さらには他人の声質の合成音声に対して、より高いマスキング効果が得られることを示したが、本年度は、更に利用者の立場でのプライバシー感の評価やマスキング信号により周囲に迷惑をかけていると感じるかなど、網羅的な評価を行い有効性を示した。収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)については、話者照合システムもしくは人間に、個人を特定されない様に音声を自動的に匿名化する技術「話者匿名化」に関する研究を行った。本枠組みでは、まず音声を、話者埋め込みベクトル、音素事後確率、基本周波数の３要素に分解し、次に、話者埋め込みベクトルを周辺話者と平均化させ、最後に、ニューラルボコーダにより高品質な音声を再合成する。これにより、言語情報と音韻性を保ったまま、元話者とは異なる話者へ変換することを実現した。音声の品質劣化は比較的少ないにもかかわらず、話者照合システムの照合誤りを非常に高められることが確認できた。また聴覚的にも個人を特定しにくくなることも確認できた。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由ここまでに実空間における音声プライバシー保護技術、サイバースペースにおける音声プライバシー保護技術について多方面から網羅的な研究を進めており、基礎研究も含め、多くの成果を挙げている。このため、当初の計画以上に進展していると言える。
今後の研究の推進方策	引き続き、収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)と実空間における音声を対象としたプライバシー保護技術(「実空間における音声プライバシー保護技術」)の2つの技術の構築に取り組む。実空間における音声プライバシー保護技術については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討を進めてきた。今後は、利用者の立場でのプライバシー感の評価やマスキング信号により周囲に迷惑をかけていると感じるかなどについて評価だけでなく、第３者がマスキング音をどのように感じるかなどを含んだ評価を行い、その結果に基づいてより高度で快適なマスキング信号生成技術の研究に取り組む。サイバースペースにおける音声プライバシー保護技術に関して、話者匿名化の有効性を厳密に示すには、上記の評価に加え、話者匿名化された音声が再識別不可能であること、そして、匿名化された音声が他の用途に有用である事も示す必要がある。匿名化済みの音声に対する再識別困難性を実証するためには、スキルの異なる再識別攻撃者を複数想定する必要がある。予備実験からは、前述した話者匿名化法は、高度なスキルを利用した再識別攻撃により個人が特定される可能性がある事がわかっている。今後は、より厳密な再識別評価および再識別攻撃に対しても耐性がある話者匿名化法を検討する。また、音声のプライバシーに関する研究は、現在、基盤ツールや評価用データベースが存在していない。相互比較や研究加速のために、データベース公開やオープンソース公開など研究インフラ整備も鋭意行う予定である。

研究成果
(28件)

すべて 2020 2019 その他

すべて国際共同研究 (2件) 雑誌論文 (2件) (うち国際共著 1件、査読あり 2件) 学会発表 (22件) (うち国際学会 15件、招待講演 2件) 備考 (2件)

[国際共同研究] 国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学(フランス)
- 国名
  フランス
- 外国機関名
  国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学
[国際共同研究] エジンバラ大学/シェフィールド大学(英国)
- 国名
  英国
- 外国機関名
  エジンバラ大学/シェフィールド大学
[雑誌論文] A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural F0 Model for Statistical Parametric Speech Synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi, Simon King, Keiichi Tokuda
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 28 ページ: 157-170
- DOI
  10.1109/TASLP.2019.2950099
- 査読あり / 国際共著
[雑誌論文] Neural source-filter waveform models for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  巻: 28 ページ: 402-415
- DOI
  10.1109/TASLP.2019.2956145
- 査読あり
[学会発表] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020
- 著者名/発表者名
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2020年春季研究発表会
[学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019
- 著者名/発表者名
  村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] Neural source-filter-based waveform model for statistical parametric speech synthesis2019
- 著者名/発表者名
  Xin Wang, Shinji Takaki, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] STFT spectral loss for training a neural speech waveform model2019
- 著者名/発表者名
  Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- 国際学会
[学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  情報処理学会研究報告
[学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019
- 著者名/発表者名
  大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2019年秋季研究発表会
[学会発表] Statistical approach to speech synthesis: past, present and future2019
- 著者名/発表者名
  Keiichi Tokuda
- 学会等名
  Interspeech 2019
- 国際学会 / 招待講演
[学会発表] GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram2019
- 著者名/発表者名
  Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku
- 学会等名
  Interspeech 2019
- 国際学会
[学会発表] Joint training framework for text-to-speech and voice conversion using multi-source Tacotron and WaveNet2019
- 著者名/発表者名
  Mingyang Zhang, Xin Wang, Fuming Fang, Haizhou Li, Junichi Yamagishi
- 学会等名
  Interspeech 2019
- 国際学会
[学会発表] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019
- 著者名/発表者名
  Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019
- 著者名/発表者名
  Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019
- 著者名/発表者名
  Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] Speaker Anonymization Using X-vector and Neural Waveform Models2019
- 著者名/発表者名
  Fuming Fang, Xin Wang, Junichi Yamagishi, Isao Echizen, Massimiliano Todisco, Nicholas Evans,Jean-Francois Bonastre
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019
- 著者名/発表者名
  Yusuke Yasuda, Xin Wang, Junichi Yamagishi
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019
- 著者名/発表者名
  Xin Wang, Junichi Yamagishi
- 学会等名
  10th ISCA Speech Synthesis Workshop (SSW10)
- 国際学会
[学会発表] 統計的音声合成の進展と展望2019
- 著者名/発表者名
  徳田恵一
- 学会等名
  音声研究会
- 招待講演
[学会発表] 公共空間におけるスピーチプライバシー保護を目的とした合成音声によるサウンドマスキングの検討2019
- 著者名/発表者名
  次井貴浩, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
[学会発表] 歌声合成におけるニューラルボコーダの比較検討2019
- 著者名/発表者名
  和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  音声研究会
[学会発表] BOOTSTRAPPING NON-PARALLEL VOICE CONVERSION FROM SPEAKER-ADAPTIVE TEXT-TO-SPEECH2019
- 著者名/発表者名
  Hieu-Thi Luong, Junichi Yamagishi
- 学会等名
  IEEE ASRU 2019
- 国際学会
[備考] VoicePrivacy initiative
- URL
  https://www.voiceprivacychallenge.org/
[備考] Baseline Recipe for VoicePrivacy Challenge 2020
- URL
  https://github.com/Voice-Privacy-Challenge/Voice-Privacy-Challenge-2020

2019 年度 実績報告書

PRISM: 選択的情報マスキングを可能とする次世代音声プライバシー保護技術

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] 国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学(フランス)

国名

外国機関名

[国際共同研究] エジンバラ大学/シェフィールド大学(英国)

国名

外国機関名

[雑誌論文] A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural F0 Model for Statistical Parametric Speech Synthesis2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Neural source-filter waveform models for statistical parametric speech synthesis2019

著者名/発表者名

雑誌名

DOI

[学会発表] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020

著者名/発表者名

学会等名

[学会発表] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

著者名/発表者名

学会等名

[学会発表] Audiovisual speaker conversion: jointly and simultaneously transforming facial expression and acoustic characteristics2019

著者名/発表者名

学会等名

[学会発表] Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks2019

著者名/発表者名

学会等名

[学会発表] Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language2019

著者名/発表者名

学会等名

[学会発表] Neural source-filter-based waveform model for statistical parametric speech synthesis2019

著者名/発表者名

学会等名

[学会発表] STFT spectral loss for training a neural speech waveform model2019

著者名/発表者名

学会等名

[学会発表] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

著者名/発表者名

学会等名

[学会発表] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

著者名/発表者名

学会等名

[学会発表] Statistical approach to speech synthesis: past, present and future2019

著者名/発表者名

学会等名

[学会発表] GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram2019

著者名/発表者名

学会等名

[学会発表] Joint training framework for text-to-speech and voice conversion using multi-source Tacotron and WaveNet2019

著者名/発表者名

学会等名

[学会発表] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

著者名/発表者名

学会等名

[学会発表] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

著者名/発表者名

学会等名

[学会発表] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

著者名/発表者名

学会等名

[学会発表] Speaker Anonymization Using X-vector and Neural Waveform Models2019

著者名/発表者名

学会等名

[学会発表] Initial investigation of encoder-decoder end-to-end TTS using marginalization of monotonic hard alignments2019

著者名/発表者名

学会等名

[学会発表] Neural Harmonic-plus-Noise Waveform Model with Trainable Maximum Voice Frequency for Text-to-Speech Synthesis2019

著者名/発表者名

学会等名

[学会発表] 統計的音声合成の進展と展望2019

著者名/発表者名

学会等名

[学会発表] 公共空間におけるスピーチプライバシー保護を目的とした合成音声によるサウンドマスキングの検討2019

著者名/発表者名

2019 年度実績報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)