研究課題/領域番号 |
23K11165
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 静岡大学 |
研究代表者 |
西田 昌史 静岡大学, 情報学部, 教授 (80361442)
|
研究分担者 |
柘植 覚 大同大学, 情報学部, 教授 (00325250)
黒岩 眞吾 千葉大学, 大学院工学研究院, 教授 (20333510)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2025年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
|
キーワード | 話者照合 / 発話スタイル依存型 / 感情 / x-vector / 生体認証 / 発話スタイル |
研究開始時の研究の概要 |
本研究では、新たな生体認証法としてユーザがあらかじめシステムに感情や方言、歌声などの発話スタイルを指定し、指定された発話スタイルで発話しなければ認証されない発話スタイル指定型の話者照合方式を提案する。従来のテキスト指定型の話者照合方式と組み合わせることでより頑健に音声による個人認証を行い、様々な発話スタイルに頑健な話者照合法を実現し、時期差の影響が少なく、話者間の違いがより明確になる発話スタイルを明らかにする。
|
研究実績の概要 |
本研究では、なりすまし音声に対する頑健な手法として、発声時の発話スタイルに着目し、音声に含まれる話者の特性だけでなく、感情も認証の鍵として用いる発話スタイル依存型の話者照合手法を提案した。提案手法は、ユーザが詐称者に知られないようにあらかじめ照合時に発話する感情をシステムに指定し、指定した感情で発話しなければ本人と認証されない照合手法である。これは、指定された感情で発話したかどうか感情の照合を行い、受理された発話のみ話者の照合を行う2段階の照合手法である。感情と話者の照合には特徴量としてx-vectorを用いた。x-vectorの特徴抽出器には、事前学習済みのECAPA-TDNNを使用した。評価実験には、JTESと呼ばれる日本人話者100名(男女50名)による4種の感情発話(怒り、喜び、悲しみ、平静)からなる2万発話のコーパスを使用した。まず、感情の照合性能は、指定感情の誤棄却率が約32%、指定外感情の誤受理率は約0.001%となり、指定外感情を誤って受理することはほとんどない半面、指定された感情で発話した場合に約30%の割合で棄却されてしまうという課題が明らかになった。従来の話者照合のみの場合は、等誤り率が1.49%という結果に対して、提案手法による話者照合性能は、本人誤棄却率が約32%、詐称者誤受理率は約0.001%という結果になり、従来の話者照合に比べて詐称者はほとんど受理されない半面、本人を誤って棄却する割合が高い結果となった。セキュリティの観点では、詐称者を受理することはできるだけ避けるべきであると考えれば、提案手法は有効であると考えられる。また、感情の照合が100%正しく行えたことを仮定した場合、提案手法による話者照合性能は等誤り率で0.86%と従来の話者照合のみの性能よりも大幅に高い精度が得られ、今後感情の照合性能を高めていくことが必要であることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
発話スタイルとしてまずは感情に着目し、話者照合でよく用いられているx-vectorを用いて感情の照合と話者の照合を2段階で行う手法を提案し、従来の話者照合のみの手法に比べて詐称者の誤受理率を低くできることが明らかになった。また、感情の照合が100%正しく出来た場合を想定した際、提案手法により従来手法に比べて大幅に話者照合性能を高められることも明らかになり、おおむね順調に進展している。ただ、当初計画していた音声データの収集については予定よりも遅れている。
|
今後の研究の推進方策 |
提案手法により詐称者の誤受理率を下げることができたが、指定された感情で発話した際に誤って棄却される割合が高く、話者照合でも本人の発話を誤って棄却される割合が高い課題が残った。今後は、指定感情の発話あるいは本人の発話を誤って棄却される割合を下げられるように、手法の検討を進める。また、予定よりも遅れている音声データの収集作業を進める。
|