研究概要 |
本研究では,公開鍵基盤(PKI)を利用した認証の信頼性を高める方法として,音声による個人認証(話者照合)をPKIと融合する技術についての検討を行う.この技術を確立するためには,特に,話者照合の耐雑音性を向上させることが重要である.その手法として,複数の特徴量を適当な重みで組み合わせることで耐雑音性の向上を図るマルチストリーム型の話者照合方式について研究を行っている.昨年度は,音声に含まれるケプストラム特徴量と基本周波数特徴量との組み合わせについて検討を行った.本年度は,さらなる発展として,特徴量ベクトルの各次元を独立のストリームとみなし,雑音によって信頼度の低下した次元の重みを小さくすることで耐雑音性の向上をはかる,マルチストリーム型の話者照合について検討を行った.次元ごとの信頼度重みの推定には,音声認識の耐雑音性の向上のために提案を行った,線形判別分析(LDA)に基づく重み推定手法を利用した.評価実験には,男性話者36名が一ヶ月ごと5時期に渡って発声した4桁連続数字を用いた.評価用データにエレベータホール・走行車内・列車内雑音などを,様々なSN比で重畳し,手法を評価したところ,全ての雑音種の15,20dBにおいて誤り率の低減が観測され,手法の有効性が示された. また,PKI基盤などの実用に耐える高精度な話者認識技術を確立するためには,できるだけ多人数の,また,多時期で収録した音声データが必要であると考えるが,現状では十分なデータがなく,研究の進展が困難である.そこで本年度は,実システムの利用を想定し,音声データの追加収録を行った.具体的には,使用者が二ヶ月間,毎日,計算機システムにログインするために話者照合を利用することを想定し,数字発声の収録を行った.その結果,男性話者20名による,総発声数約7000,約400MBのデータが構築された.
|