研究課題/領域番号 |
21K17775
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (60843141)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | プライバシー / 音声匿名化 / 話者識別 / 音声情報処理 / 深層学習 / speech privacy / speaker anonymization / speech waveform modeling / neural network / deep learning |
研究開始時の研究の概要 |
Human speech contains not only verbal contents but also private information about the speaker such as the speaker identity. This proposal is on protecting the speaker’s privacy in speech data for two scenarios: 1) Speech anonymization: when the speaker shares the speech data in untrusted cyberspace, this speech data should be protected so that the audience can understand the speech but cannot infer who the speaker is; 2) Speech de-anonymization: when the speaker further shares the speech data to trusted audience, the original natural speech can be reconstructed from protected version.
|
研究成果の概要 |
音声データに含まれる話者識別情報の保護は現代において不可欠な技術である。深層学習に基づく話者匿名化技術は数多く存在するが、このプロジェクトは、主に三つの未解決課題に焦点を当てて研究を進めてきた。まず、自己教師あり学習モデルを用いた言語に依存しない話者匿名化システムを提案した。提案されたシステムは、英語と中国語の音声データに対して優れた匿名化性能を示した。さらに、従来のk-匿名化の問題点に着目し、話者ベクトル回転という匿名化アルゴリズムを提案した。最後に、提案手法を大規模音声データベースであるVoxCeleb2に適用し、匿名化されたデータベースの有用性とプライバシー保護性能を調査した。
|
研究成果の学術的意義や社会的意義 |
学術的成果として、現存の深層学習に基づく話者匿名化技術の言語依存性を着目し、複数の言語にも適用できる話者匿名化技術を開発した。また、従来のk-匿名化手法より、話者ベクトルの全体の分布を維持しながら匿名化が可能な手法を提案した。最後に、音声分野において初めてデータベース全体の匿名化を行い、有用性とプライバシー保護性能を調査した。いずれもの成果は音声分野のトップジャーナルや学会で発表された。そのほか、国際的なVoicePrivacyChallengeの運営にも貢献した。提案された技術はテレビ放送に使われたこともあった。
|