研究課題/領域番号 |
18H04112
|
研究機関 | 名古屋工業大学 |
研究代表者 |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究分担者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 音声情報処理 / 音声プライバシー / 音声合成 |
研究実績の概要 |
本研究では、音声に含まれるプライバシー情報を分離・変換可能な形で音声をモデ ル化することで、音声モデリングによる統一的な枠組みによって選択的にプライバシー情報を保護可能にする、次世代音声プラ イバシー保護技術 (PRISM: PRIvacy Selecting Masking)を確立することを目的とする。 実空間における音声プライバシー保護技術の確立については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討した。利用者の合成音声を用いたマスキング信号の生成に取り組み、主観評価実験により、利用者の声質の合成音声を用いることで、ホワイトノイズやピンクノイズと比較してマスキング効果が高いことが示された。さらに、他人の声質の合成音声と比較しても、利用者の声質の合成音声を用いることで、より高いマスキング効果が得られることが示された。 収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)については、話者コード、感情コード、フレーズコードなどを入力に用いたディープニューラルネットワークに基づく音響モデルによって感情等の要因を分離・変換可能にする音声モデリング技術の検討を行った。また、プライバシー情報を含む単語を音声の特徴を反映したノイズに変換するVQ-VAEに基づくプライバシー 保護技術の検討を行った。さらに、neural source filterモデルを提案し、neural source filterモデルに基づく話者匿名化を実現した。提案法によって話者照合の等価エラー率は1%から最大34%となり、音声の品質を保ったまま、声の個人認証システムに対する匿名化をある程度行うことが可能になった。これらの結果を今後国際会議にて発表する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
ここまでに実空間における音声プライバシー保護技術、サイバースペースにおける音声プライバシー保護技術について多方面から研究を進めており、基礎研究も含め、多くの成果を挙げている。このため、当初の計画以上に進展していると言える。
|
今後の研究の推進方策 |
本研究では、収録済みの音声データを対象としたプライバシー保護技術(「サイバースペースにおける音声プライバシー保護技術」)と実空間における音声を対象としたプライバシー保護技術(「実空間における音声プライバシー保護技術」)の2つの技術の構築に取り組む。 サイバースペースにおける音声プライバシー保護技術に関しては、ここまでの知見を利用しながら複数のプライバシー 情報を選択的に分離・変換する音声モデリング技術の検討を行う。また、neural source filterモデルに基づく話者匿名化技術において、話者照合システムの等価エラー率が増大するとともに、音声認識システムの単語誤り率が増加することがわかった。これは、話者匿名化処理に伴い、音声の話者性だけでなく音韻も同時に変わってしまっている可能性を示している。そこで、音韻性と話者性をより分離可能で、独立に制御可能なネットワーク構造について検討する。 実空間における音声プライバシー保護技術については、主に個人性と発話内容を対象とし、これらの情報を隠蔽するマスキング信号の生成技術について検討を進めてきた。今後は、利用者の立場でのプライバシー感の評価やマスキング信号により周囲に迷惑をかけていると感じるかなどについて評価を行い、より高度なマスキング信号生成技術の研究に取り組む。
|