研究概要 |
本研究では,「音声と耳介画像を用いた頑健なマルチモーダル個人認証システム」を提案している.提案システムでは,音声と耳介画像の特徴量を別個に申請者の音声モデル・耳介画像モデルに入力し,得られる二つの尤度を重み付けして足し合わせて融合スコアを求め,そのスコアが閾値を超えれば本人,超えなければ詐称者と判断する.昨年度までに,耳介画像の特徴量の改善による個人認証システムの頑健性向上を行った.本年度は,音声情報による個人認証(話者照合)の耐雑音性の向上を行うことで,システム全体の性能改善をはかる. そこで,これまで利用してきた話者の声道の伝達特性を反映するケプストラム情報(MFCC)とあわせて,話者の声の高さやイントネーションなどの韻律情報を反映する基本周波数情報(F_0)を音声特徴量として利用した.基本周波数の抽出には,ハフ変換を利用した雑音に頑健な手法を用い,得られたlogF_0とΔlogF_0を特徴量として組み込んだ.約半年に渡る5時期分の個人認証用データベース(男性38名)を用い,評価用の音声データにさまざまなSNR条件で白色雑音を重畳させて認証実験を行ったところ,すべてのSNRにおいて韻律情報を加えたことによるシステムの性能改善が確認された.韻律情報の融合による改善が最も大きかったのはSNRが10dB付近で,音声のみの認証(話者照合)の性能としては約40%,マルチモーダル個人認証の性能としては約30%,等誤り率が削減された. また,スコア融合の際に用いる重みの最適化法についても検討を行った。ケプストラム情報と基本周波数情報の融合に用いる重みについては,ブースティングに基づく重み最適化手法の提案を行い,雑音環境下における話者照合実験によって有効性を確認した.今後は,本手法を音声と耳介情報の融合時の重み最適化に適用することを検討する.
|