研究概要 |
平成9年度では,個人識別のための個人モデルとして,主に逆伝搬法による学習ニューラルネットを用いる方法を検討した。モデルの特徴量としては,音声と顔画像の眼の部分のバイモーダル情報を考え,それぞれを適当なパラメータに変換後に統合したものを用いた。研究では,背景雑音がある場合の個人識別実験を行い,バイモーダル情報の利用の有効性を示した。また,顔画像の部分抽出を行うため,隠れマルコフモデル(HMM)による顔画像の正規化法を提案した。更に,HMMを用いた唇動画像モデルを用いて個人識別を行うため,HMMの高速化の手法やHMMを利用した音声認識,合成,小規模な唇動画像認識などでその有効性を確認した。 平成10年度は,主にHMMを個人モデルとする個人識別法について検討した。モデルの特徴量としては,音声及び同期して得られた唇動画像の各モーダリティ情報を個別に検討した。動画像情報に関しては,実環境で問題となる唇動画像の輝度と位置の正規化法を提案した。提案法に基づいて,バイモーダルデータベースM2VTS(37名,10単語)に対して,単語認識と個人識別の実験を行った。実験により,同一データベースを用いた他の機関より高い認識率が得られ,提案法の有効性を示された。また,音声情報を用いた話者認識においては,音声スペクトルの任意の周波数分解能を高める方法や,認識部と特徴抽出部を同時に最適化する手法を提案し,従来法との比較によりその有効性を確認した。 以上の研究の成果及び関連して得られた研究成果は,11の項の論文として発表を行った。
|