研究概要 |
本研究では,音声に加えて他のバイオメトリクス情報を個人認識に利用することにより,個人認識システムの性能を改善することを目的とし,以下の点について検討を行った. (1)音声の認識部における話者モデルの学習法に関する検討 ここでは,テキスト独立型話者認識における混合ガウスモデル(GMM)に基づく話者モデルの学習法として,確定的アニーリングEM (DAEM)アルゴリズムの有効性について検討した.実験の結果,DAEMで学習した話者モデルは,乱数でパラメータを初期化した場合のEMと比較して,尤度,認識性能ともに高い結果となり,ベクトル量子化によりパラメータを初期化したEMと比較しても,同等以上の認識性能が得られ,初期化も含めた統一的な学習法としてDAEMの有効性を確認した. (2)混合因子分析に基づく話者認識モデルの最小分類誤り学習の検討 混合因子分析に基づいてGMMの共分散行列を適度なパラメータ数で表現することによって,特徴ベクトルの次元間の相関を考慮していない対角共分散行列の場合や,学習データ量に対してモデルパラメータ数が多いために学習が十分に行えない全共分散行列の場合に比べて,高い認識性能が得られることを確認した.また,最小分類誤り学習を混合因子分析モデルに適用することによって,さらに認識性能が向上した. (3)音声と顔画像を用いたバイモーダル個人認識に関する検討 音声の認識部では,GMMに基づくテキスト独立型の話者認識を行い,顔画像の認識部では,静止顔画像を短冊状に切り出したフレームの縦方向と横方向の変化を時系列とみなして隠れマルコフモデル(HMM)を用いてモデル化し認識,照合を行った.まず顔画像の縦方向と横方向のHMMのスコアを統合した結果,顔画像の縦方向もしくは横方向のHMM単独の場合に比べて,顔画像の認識性能が向上した.更に,音声と顔画像のスコアを組み合わせることで,より高い認識性能が得られた.また,話者照合実験においては,バックグラウンド話者モデルによる尤度正規化や話者別の閾値設定によって更に認識率が向上した.
|