2018 Fiscal Year Annual Research Report
A detection method using relative phase information for spoofed speech based on speech synthesis, speaker adaptation and edited speech
Project/Area Number |
16K12461
|
Research Institution | Chubu University |
Principal Investigator |
中川 聖一 中部大学, 工学部, 教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
王 龍標 長岡技術科学大学, 工学研究科, 准教授 (30510458) [Withdrawn]
岩橋 政宏 長岡技術科学大学, 工学研究科, 教授 (30251854)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 話者照合 / 詐称音声 / 録音再生音 / なりすまし音声 / 相対位相情報 / 話者認識 |
Outline of Annual Research Achievements |
ユーザの生体情報によるセキュリティ手段の一つである話者照合技術に関して、悪意をもってユーザになり済ます録音再生音による詐称音声を検出するために、ユーザが直接マイクに発声した音声と人の声を録音再生した音声との弁別を行う手法に関して検討した。今年度は、以前から我々が提案してきた相対位相情報に基づく話者照合法を改善し、周波数帯域による話者情報の偏在性に着目し、頑健に弁別しやすくなるように周波数軸スケールの伸縮を行い、フィルタバンクの形状を自動学習する方法の検討を行った。同様の手法を振幅スペクトラムについても行い、代表的な特徴パラメータとの比較を行った。その結果、提案した周波数軸の適応的伸縮による相対位相情報が単一の特徴パラメータとしては、世界最高水準の特徴パラメータであることを示した。 また、話者照合の基本技術の開発を検討し、音声の原波形と線形予測分析による残差波形に対して、メル周波数ケプストラム係数(MFCC)と群遅延ケプストラム係数、相対位相情報を抽出し、これらのパラメータの併用による話者照合の改善を行った。相対位相に対しては、使用する周波数帯域を低域から中域までの60Hz~2800Hzまで拡大した。その結果、原波形から抽出した特徴パラメータが残差波形から抽出した特徴パラメータよりも良かったが、残差波形にも多くの話者情報が保存されることが分かった。男性135名、女性135名、合計270名の話者認識において、話者情報の登録に5発話の約20秒間の音声を用いた場合と10発話の約40秒間の音声を用いた場合で、1発話ごとによる話者認識で、それぞれ約99.2%と99.7%の認識率を得ることができた。いずれの場合も相対位相情報が振幅スペクトラム情報の補完情報として有用であることを実証した。
|
Research Products
(7 results)