A detection method using relative phase information for spoofed speech based on speech synthesis, speaker adaptation and edited speech
Project/Area Number |
16K12461
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Allocation Type | Multi-year Fund |
Research Field |
Perceptual information processing
|
Research Institution | Chubu University (2018) Toyohashi University of Technology (2016-2017) |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
王 龍標 長岡技術科学大学, 工学研究科, 准教授 (30510458)
岩橋 政宏 長岡技術科学大学, 工学研究科, 教授 (30251854)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2018: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2017: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2016: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 話者照合 / 相対位相情報 / 振幅スペクトラム / 位相スペクトラム / 詐称音声 / 再生音 / spoofed speech challenge / 録音再生音 / なりすまし音声 / 話者認識 / 位相情報の正規化 |
Outline of Final Research Achievements |
A serious problem for speaker verification is spoofed speech, which is classified into (1) mimic speech (impersonation), (2) speech synthesis using target speaker's speech, (3) voice conversion to target speaker's speech, and (4) record-replay speech of target speaker's speech. In this study, we improved relative phase information for spoofed speech detection, which was invented by the proposer. The improvement points are the extension of frequency range to higher frequency to extract relative phase and optimal nonlinear scale of frequency axis. We obtained the best feature parameter, that is, improved relative phase, as single feature in the world. Furthermore, we obtained the higher detection rate by combining this relative phase feature and conventional feature parameters.
|
Academic Significance and Societal Importance of the Research Achievements |
生体認証技術の一つとして話者照合技術がある。本研究では、各話者が約40秒の声を登録しておけば、4秒程度発声した声で、270人の話者から99.7%の精度で正しく発声した話者を識別する技術を開発した。この技術で声による「鍵」などの多くの応用が実現できる。 一方、声真似や本人の一部の声を用いた音声合成技術や声質変換技術、録音再生技術による、なりすまし音声と本人の音声との区別ができなくなる問題が実用化への妨げとなる。本研究では、このなりすまし音声を高精度に検出する技術を開発した。この技術によって、話者照合技術のセキュリティ分野への応用も可能となった。
|
Report
(4 results)
Research Products
(15 results)