2020 Fiscal Year Annual Research Report

PRISM: Speech privacy preservation based on selecting masking

Research Project

Project/Area Number	18H04112
Research Institution	Nagoya Institute of Technology
Principal Investigator	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Co-Investigator(Kenkyū-buntansha)	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	音声情報処理 / 音声プライバシー / 音声合成
Outline of Annual Research Achievements	実空間における音声プライバシー保護技術については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討を進めてきた。今年度は利用者の立場でのプライバシー感の評価やマスキング信号により周囲に迷惑をかけていると感じるかなどについて評価だけでなく、第３者がマスキング音をどのように感じるかなどを含んだ評価を行い、提案手法の有効性を確認した。収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)については、そこで、音声の自然性や音声から知覚可能な年代や性別といった話者の属性情報を保ったまま、音声の個人性を変えることを目的とする話者匿名化を提案した。これは、音声を抑揚、音素情報、ｘベクトルという話者性を表すベクトルの３つの情報に分解し、ｘベクトルのみを近傍のK人の話者と平均化することで匿名化する手法である。音声波形を再合成するモジュールにはニューラルソースフィルタを利用し、高品質な音声生成を可能にした。英語話者の音声データを利用した実験から、xベクトルの空間において、k匿名化を行うことで、話者認識システムおよび人間の聴覚上の話者識別性能が有意に下がることを確認した。さらに、単なる平均値によるK匿名化ではなく、話者空間における確率密度の混合分布を考慮した改良版も提案した。この様な話者匿名化技術の適切な評価には、単なる変換音声の品質や話者認識精度による比較だけでなく、より適切な指標に基づく評価・分析が必要である。そこで話者匿名化後の音声が再識別化される最悪リスクに基づいて評価を行う指標も提案した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ここまでに実空間における音声プライバシー保護技術、サイバースペースにおける音声プライバシー保護技術について多方面から網羅的な研究を進めており、基礎研究も含め、順調に成果を挙げている。このため、当初の計画通りに進展していると言える。
Strategy for Future Research Activity	引き続き、収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)と実空間における音声を対象としたプライバシー保護技術(「実空間における音声プライバシー保護技術」)の2つの技術の構築に取り組むとともに、評価実験により研究全体のまとめを行う。実空間における音声プライバシー保護技術については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討を進めてきた。今後は、実際の公共空間あるいはそれと同等の環境において、利用者の立場でのプライバシー感の評価やマスキング信号により周囲に迷惑をかけていると感じるか、第３者がマスキング音をどのように感じるかなどを含んだ評価実験を行い、その結果に基づいてより高度で快適なマスキング信号生成技術としてまとめる。サイバースペースにおける音声プライバシー保護技術に関して、話者匿名化の有効性を厳密に示すには、これまでに設定した評価法に加え、話者匿名化された音声が再識別不可能であること、そして、匿名化された音声が他の用途に有用である事も示す必要がある。匿名化済みの音声に対する再識別困難性を実証するためには、スキルの異なる再識別攻撃者を複数想定する必要がある。予備実験からは、前述した話者匿名化法は、高度なスキルを利用した再識別攻撃により個人が特定される可能性がある事がわかっている。このため、より厳密な再識別評価および再識別攻撃に対しても耐性がある話者匿名化法の確立を目指す。また、音声のプライバシーに関する研究は、現在、基盤ツールや評価用データベースが整っていない状態である。相互比較や研究加速のために、データベース公開やオープンソース公開など研究インフラ整備も引き続き行う。

Research Products
(27 results)

All 2021 2020 Other

All Int'l Joint Research (2 results) Presentation (22 results) (of which Int'l Joint Research: 5 results) Remarks (2 results) Funded Workshop (1 results)

[Int'l Joint Research] 国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学(フランス)
- Country Name
  FRANCE
- Counterpart Institution
  国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学
[Int'l Joint Research] エジンバラ大学/シェフィールド大学(英国)
- Country Name
  UNITED KINGDOM
- Counterpart Institution
  エジンバラ大学/シェフィールド大学
[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021
- Author(s)
  藤本崇人, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021
- Author(s)
  角谷健太, 吉村建慶, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021
- Author(s)
  岩田康平, 高木信二, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 深層学習に基づく音声合成における顔画像を用いた話者適応2020
- Author(s)
  平光啓祐，橋本佳，徳田恵一，南角吉彦
- Organizer
  第18回情報学ワークショップ
[Presentation] 生成モデルの構造を組み込んだ系列変分オートエンコーダに基づく話者認識2020
- Author(s)
  車田智哉，木下耕介，吉村建慶，橋本佳，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 出力遅延を考慮したアテンション機構に基づくリアルタイム声質変換2020
- Author(s)
  西村愛理，藤本崇人，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声合成における特徴的な発話スタイルの転移学習2020
- Author(s)
  久野宏彰，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] ニューラルボコーダを用いた音声符号化手法の検討2020
- Author(s)
  成田哲郎，吉村建慶，橋本佳，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020
- Author(s)
  大谷眞史，佐藤優介，高木信二，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 大規模音楽データを活用した汎用WaveNetボコーダ構成法の検討2020
- Author(s)
  佐々木一匡，吉村建慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 音声プライバシー保護のためのノンパラレル声質変換による話者匿名化の検討2020
- Author(s)
  厚地俊哉，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020
- Author(s)
  岩田康平，高木信二，橋本佳，南角吉彦，徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] 深層学習に基づく楽器音合成における音響モデルの比較検討2020
- Author(s)
  前川遼太朗，高木信二，橋本佳，大浦圭一郎，南角吉彦, 徳田恵一
- Organizer
  第18回情報学ワークショップ
[Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020
- Author(s)
  Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] Design Choices for X-Vector Based Speaker Anonymization2020
- Author(s)
  Brij Mohan Lal Srivastava, Natalia Tomashenko, Xin Wang, Emmanuel Vincent, Junichi Yamagishi, Mohamed Maouche, Aur?lien Bellet, Marc Tommasi
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] Introducing the VoicePrivacy Initiative2020
- Author(s)
  Natalia Tomashenko, Brij Mohan Lal Srivastava, Xin Wang, Emmanuel Vincent, Andreas Nautsch, Junichi Yamagishi, Nicholas Evans, Jose Patino, Jean-Fran?ois Bonastre, Paul-Gauthier No?, Massimiliano Todisco
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] The Privacy ZEBRA: Zero Evidence Biometric Recognition Assessment2020
- Author(s)
  Andreas Nautsch, Jose Patino, N. Tomashenko, Junichi Yamagishi, Paul-Gauthier No?, Jean-Fran?ois Bonastre, Massimiliano Todisco, Nicholas Evans
- Organizer
  Interspeech 2020
- Int'l Joint Research
[Presentation] 感情音声合成のためのDirichlet VAE2020
- Author(s)
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020
- Author(s)
  法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020
- Author(s)
  大谷眞史, 佐藤優介, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年秋季研究発表会
[Presentation] Semi-supervised learning based on hierarchical generative models for end-to-end speech synthesis2020
- Author(s)
  Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Remarks] VoicePrivacy initiative
- URL
  https://www.voiceprivacychallenge.org/
[Remarks] Baseline Recipe for VoicePrivacy Challenge 2020
- URL
  https://github.com/Voice-Privacy-Challenge/Voice-Privacy-Challenge-2020
[Funded Workshop] Voice Privacy Challenge (https://www.voiceprivacychallenge.org/)2020

2020 Fiscal Year Annual Research Report

PRISM: Speech privacy preservation based on selecting masking

Principal Investigator

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] 国立情報学自動制御研究所 (INRIA)/Eurecom研究所/アビニョン大学(フランス)

Country Name

Counterpart Institution

[Int'l Joint Research] エジンバラ大学/シェフィールド大学(英国)

Country Name

Counterpart Institution

[Presentation] 学習時と合成時の一貫性を考慮したVAEに基づく自己回帰型sequence-to-sequence音声合成2021

Author(s)

Organizer

[Presentation] 隠れセミマルコフモデルに基づく構造化アテンションを用いたSequence-to-Sequence音声合成2021

Author(s)

Organizer

[Presentation] 周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討2021

Author(s)

Organizer

[Presentation] 勾配ブースティング決定木を用いた音声合成手法の検討2021

Author(s)

Organizer

[Presentation] 深層学習に基づく音声合成における顔画像を用いた話者適応2020

Author(s)

Organizer

[Presentation] 生成モデルの構造を組み込んだ系列変分オートエンコーダに基づく話者認識2020

Author(s)

Organizer

[Presentation] 出力遅延を考慮したアテンション機構に基づくリアルタイム声質変換2020

Author(s)

Organizer

[Presentation] 音声合成における特徴的な発話スタイルの転移学習2020

Author(s)

Organizer

[Presentation] ニューラルボコーダを用いた音声符号化手法の検討2020

Author(s)

Organizer

[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリングの検討2020

Author(s)

Organizer

[Presentation] 大規模音楽データを活用した汎用WaveNetボコーダ構成法の検討2020

Author(s)

Organizer

[Presentation] 音声プライバシー保護のためのノンパラレル声質変換による話者匿名化の検討2020

Author(s)

Organizer

[Presentation] 勾配ブースティング決定木を用いた高速な音声合成手法の検討2020

Author(s)

Organizer

[Presentation] 深層学習に基づく楽器音合成における音響モデルの比較検討2020

Author(s)

Organizer

[Presentation] Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis2020

Author(s)

Organizer

[Presentation] Design Choices for X-Vector Based Speaker Anonymization2020

Author(s)

Organizer

[Presentation] Introducing the VoicePrivacy Initiative2020

Author(s)

Organizer

[Presentation] The Privacy ZEBRA: Zero Evidence Biometric Recognition Assessment2020

Author(s)

Organizer

[Presentation] 感情音声合成のためのDirichlet VAE2020

Author(s)

Organizer

[Presentation] DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討2020

Author(s)

Organizer

[Presentation] 音声合成における敵対的生成ネットワークを用いた複数言語・複数話者モデリング2020

Author(s)

Organizer

[Presentation] Semi-supervised learning based on hierarchical generative models for end-to-end speech synthesis2020

Author(s)

Organizer

[Remarks] VoicePrivacy initiative

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)