研究概要 |
本研究は,音声と顔画像のバイモーダル情報による個人識別を行うことを目的としている。そのため,今年度は個人の音声と静止顔画像データを収集した。得られた顔画像の眼の部分と収集した音声を適当なパラメータに変換後,それらをニューラルネットワークの入力とした個人識別モデルを構成した。これらのモデルからなる識別システムについて検討を行い,バイモーダル情報の利用の有効性を示した{論文発表}。さらに,音声に背景雑音がある場合の個人識別において,音声情報のみを利用する従来法と比較して,提案法の有効性を確認した。また顔画像を眼,鼻,口などの幾つかの部分に分けるため,音声認識で広く用いられている隠れマルコフモデル(HMM)を眼部分抽出に適用することを考え,顔の部分抽出の予備実験を開始した。 HMMは頑健な手法であるが,かなりの計算時間を必要とする。このHMMを動画像に適用するためには,音声や静止画像に適用する場合に比べて計算量が増大するため,HMMの高速化を考える必要がある。そのため,自己組織化特徴地図に基づいたHMMの高速化手法を提案し,有効性を検討した{論文発表}。さらに,動画像による個人識別の予備実験として,唇動画像の単語音声のHMMモデルを考えた。そのHMMモデルの有効性を検討するため,入手したバイモーダルの小規模データベースを用いて,動画像の輝度と位置の正規化法について提案し,有効な結果が得られることを確認した{論文発表}。
|