研究概要 |
本研究は,音声と顔画像のバイモーダル情報による個人識別を行うことを目的としている。その予備実験として,昨年に引き続き英語4数字のバイモーダルデータベース(TULIPS1:12名)に対する唇動画像のHMMモデルを構築し,単語認識における輝度と位置の正規化の検討を行い,95%程度の認識率を得た。提案法は,同一のデータベースを用いた他の研究機関よりも良好な認識率を得ている{論文発表}。また,輝度と位置の更に新しい正規化法を提案し,我々が従来の提案していた方法と同程度の認識率が,より計算量の少ないアルゴリズムで得られることを示した{論文発表予定}。 今年度は.昨年よりも大きいバイモーダルデータベース(M2VTS:37名10数字)を購入し実験を行った。このデータベースを基に,隠れマルコフモデル(HMM)に基づく顔画像の正規化,部品抽出の検討を行い,良好な結果を得るとともに,10数字認識を行い他の研究機関よりも高い認識率を得ることができ,提案法の有効性が確認できた{論文発表}。 さらに,数字音声の認識ができたという条件の下での個人識別を行うために,数字に対する唇動画像の各個人のHMMモデルを構築した。昨年とは異なる計算時間の少ない位置の正規化の検討を行い,単語"ZERO"を用いたテキスト依存型の37名による個人識別実験では,良好な個人識別の結果を得ており,提案法の有効性が確認できた{論文発表予定}。 さらに,音声による話者認識の検討を行うため,電話帯域の音声の話者認識を検討するため,任意の周波数の解像度を高めるスペクトル分析法を検討し,それに基づく識別的特徴抽出に基づく話者認識を行い,その有効性を確認した{論文発表予定}。
|