A Study on Utterance Style-dependent Speaker Verification

Research Project

Project/Area Number	23K11165
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Shizuoka University
Principal Investigator	西田昌史静岡大学, 情報学部, 教授 (80361442)
Co-Investigator(Kenkyū-buntansha)	柘植覚大同大学, 情報学部, 教授 (00325250) 黒岩眞吾千葉大学, 大学院工学研究院, 教授 (20333510)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000) Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2023: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Keywords	話者照合 / 発話スタイル依存型 / 感情 / x-vector / 生体認証 / 発話スタイル
Outline of Research at the Start	本研究では、新たな生体認証法としてユーザがあらかじめシステムに感情や方言、歌声などの発話スタイルを指定し、指定された発話スタイルで発話しなければ認証されない発話スタイル指定型の話者照合方式を提案する。従来のテキスト指定型の話者照合方式と組み合わせることでより頑健に音声による個人認証を行い、様々な発話スタイルに頑健な話者照合法を実現し、時期差の影響が少なく、話者間の違いがより明確になる発話スタイルを明らかにする。
Outline of Annual Research Achievements	本研究では、なりすまし音声に対する頑健な手法として、発声時の発話スタイルに着目し、音声に含まれる話者の特性だけでなく、感情も認証の鍵として用いる発話スタイル依存型の話者照合手法を提案した。提案手法は、ユーザが詐称者に知られないようにあらかじめ照合時に発話する感情をシステムに指定し、指定した感情で発話しなければ本人と認証されない照合手法である。これは、指定された感情で発話したかどうか感情の照合を行い、受理された発話のみ話者の照合を行う2段階の照合手法である。感情と話者の照合には特徴量としてx-vectorを用いた。x-vectorの特徴抽出器には、事前学習済みのECAPA-TDNNを使用した。評価実験には、JTESと呼ばれる日本人話者100名（男女50名）による4種の感情発話（怒り、喜び、悲しみ、平静）からなる2万発話のコーパスを使用した。まず、感情の照合性能は、指定感情の誤棄却率が約32%、指定外感情の誤受理率は約0.001%となり、指定外感情を誤って受理することはほとんどない半面、指定された感情で発話した場合に約30%の割合で棄却されてしまうという課題が明らかになった。従来の話者照合のみの場合は、等誤り率が1.49%という結果に対して、提案手法による話者照合性能は、本人誤棄却率が約32%、詐称者誤受理率は約0.001%という結果になり、従来の話者照合に比べて詐称者はほとんど受理されない半面、本人を誤って棄却する割合が高い結果となった。セキュリティの観点では、詐称者を受理することはできるだけ避けるべきであると考えれば、提案手法は有効であると考えられる。また、感情の照合が100%正しく行えたことを仮定した場合、提案手法による話者照合性能は等誤り率で0.86%と従来の話者照合のみの性能よりも大幅に高い精度が得られ、今後感情の照合性能を高めていくことが必要であることがわかった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 発話スタイルとしてまずは感情に着目し、話者照合でよく用いられているx-vectorを用いて感情の照合と話者の照合を2段階で行う手法を提案し、従来の話者照合のみの手法に比べて詐称者の誤受理率を低くできることが明らかになった。また、感情の照合が100%正しく出来た場合を想定した際、提案手法により従来手法に比べて大幅に話者照合性能を高められることも明らかになり、おおむね順調に進展している。ただ、当初計画していた音声データの収集については予定よりも遅れている。
Strategy for Future Research Activity	提案手法により詐称者の誤受理率を下げることができたが、指定された感情で発話した際に誤って棄却される割合が高く、話者照合でも本人の発話を誤って棄却される割合が高い課題が残った。今後は、指定感情の発話あるいは本人の発話を誤って棄却される割合を下げられるように、手法の検討を進める。また、予定よりも遅れている音声データの収集作業を進める。

Report

(1 results)

2023 Research-status Report

Research Products
(4 results)

All 2023

All Presentation (4 results) (of which Int'l Joint Research: 2 results)

[Presentation] Utterance-style-dependent Speaker Verification by Utilizing Emotions2023
- Author(s)
  H. Takayama, M. Nishida, S. Tsuge, S. Kuroiwa, M. Nishimura
- Organizer
  IEEE 12th Global Conference on Consumer Electronics (GCCE)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Cross-Lingual Speaker Identification for Japanese-English Bilinguals2023
- Author(s)
  R. Sano, M. Nishida, S. Tsuge, S. Kuroiwa, H. Yoshimura
- Organizer
  IEEE 12th Global Conference on Consumer Electronics (GCCE)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 感情を想定した発話スタイル依存型話者照合2023
- Author(s)
  髙山響，西田昌史，柘植覚，黒岩眞吾，西村雅史
- Organizer
  日本音響学会秋季研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 単語発声による同一話者判定DNNの学習と話者照合2023
- Author(s)
  亀田健太郎，黒岩眞吾，堀内靖雄，柘植覚，西田昌史
- Organizer
  日本音響学会秋季研究発表会
- Related Report
  2023 Research-status Report

A Study on Utterance Style-dependent Speaker Verification

Principal Investigator

西田 昌史 静岡大学, 情報学部, 教授 (80361442)

¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Utterance-style-dependent Speaker Verification by Utilizing Emotions2023

Author(s)

Organizer

Related Report

[Presentation] Cross-Lingual Speaker Identification for Japanese-English Bilinguals2023

Author(s)

Organizer

Related Report

[Presentation] 感情を想定した発話スタイル依存型話者照合2023

Author(s)

Organizer

Related Report

[Presentation] 単語発声による同一話者判定DNNの学習と話者照合2023

Author(s)

Organizer

Related Report

西田昌史静岡大学, 情報学部, 教授 (80361442)