A Study on Utterance Style-dependent Speaker Verification
Project/Area Number |
23K11165
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Shizuoka University |
Principal Investigator |
西田 昌史 静岡大学, 情報学部, 教授 (80361442)
|
Co-Investigator(Kenkyū-buntansha) |
柘植 覚 大同大学, 情報学部, 教授 (00325250)
黒岩 眞吾 千葉大学, 大学院工学研究院, 教授 (20333510)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 話者照合 / 発話スタイル依存型 / 感情 / x-vector / 生体認証 / 発話スタイル |
Outline of Research at the Start |
本研究では、新たな生体認証法としてユーザがあらかじめシステムに感情や方言、歌声などの発話スタイルを指定し、指定された発話スタイルで発話しなければ認証されない発話スタイル指定型の話者照合方式を提案する。従来のテキスト指定型の話者照合方式と組み合わせることでより頑健に音声による個人認証を行い、様々な発話スタイルに頑健な話者照合法を実現し、時期差の影響が少なく、話者間の違いがより明確になる発話スタイルを明らかにする。
|
Outline of Annual Research Achievements |
本研究では、なりすまし音声に対する頑健な手法として、発声時の発話スタイルに着目し、音声に含まれる話者の特性だけでなく、感情も認証の鍵として用いる発話スタイル依存型の話者照合手法を提案した。提案手法は、ユーザが詐称者に知られないようにあらかじめ照合時に発話する感情をシステムに指定し、指定した感情で発話しなければ本人と認証されない照合手法である。これは、指定された感情で発話したかどうか感情の照合を行い、受理された発話のみ話者の照合を行う2段階の照合手法である。感情と話者の照合には特徴量としてx-vectorを用いた。x-vectorの特徴抽出器には、事前学習済みのECAPA-TDNNを使用した。評価実験には、JTESと呼ばれる日本人話者100名(男女50名)による4種の感情発話(怒り、喜び、悲しみ、平静)からなる2万発話のコーパスを使用した。まず、感情の照合性能は、指定感情の誤棄却率が約32%、指定外感情の誤受理率は約0.001%となり、指定外感情を誤って受理することはほとんどない半面、指定された感情で発話した場合に約30%の割合で棄却されてしまうという課題が明らかになった。従来の話者照合のみの場合は、等誤り率が1.49%という結果に対して、提案手法による話者照合性能は、本人誤棄却率が約32%、詐称者誤受理率は約0.001%という結果になり、従来の話者照合に比べて詐称者はほとんど受理されない半面、本人を誤って棄却する割合が高い結果となった。セキュリティの観点では、詐称者を受理することはできるだけ避けるべきであると考えれば、提案手法は有効であると考えられる。また、感情の照合が100%正しく行えたことを仮定した場合、提案手法による話者照合性能は等誤り率で0.86%と従来の話者照合のみの性能よりも大幅に高い精度が得られ、今後感情の照合性能を高めていくことが必要であることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
発話スタイルとしてまずは感情に着目し、話者照合でよく用いられているx-vectorを用いて感情の照合と話者の照合を2段階で行う手法を提案し、従来の話者照合のみの手法に比べて詐称者の誤受理率を低くできることが明らかになった。また、感情の照合が100%正しく出来た場合を想定した際、提案手法により従来手法に比べて大幅に話者照合性能を高められることも明らかになり、おおむね順調に進展している。ただ、当初計画していた音声データの収集については予定よりも遅れている。
|
Strategy for Future Research Activity |
提案手法により詐称者の誤受理率を下げることができたが、指定された感情で発話した際に誤って棄却される割合が高く、話者照合でも本人の発話を誤って棄却される割合が高い課題が残った。今後は、指定感情の発話あるいは本人の発話を誤って棄却される割合を下げられるように、手法の検討を進める。また、予定よりも遅れている音声データの収集作業を進める。
|
Report
(1 results)
Research Products
(4 results)