研究概要 |
本研究の目的は,1000種類以上の対象について認識可能な大規模一般画像認識システムを実現することである.2年目である本年度は,Webから収集したテキスト情報を含むメタデータ付きの200万枚の画像に対して,(1)Probabilistic Latent Semantic Analysis(pLSA)と呼ばれる確率的トピック表現を利用して200万枚の画像の画像特徴を確率クラスタリングすることによって,同一単語の画像の分類とノイズ画像除去を教師データなしで同時に実現した.さらに(2)この確率トピック表現を利用して単語間の関係を階層的に表現する視覚オントロジーを作成した.この視覚オントロジーはカテゴリ間の視覚的な類似性および共起性を階層的に表現するため,本研究での目的である1000もの多数のカテゴリのクラスを認識する際に階層的にカテゴリ分類を行うのに役立つことが期待される.また,これに関連して(3)位置情報付き画像の画像認識において位置情報を航空写真の画像特徴量,位置周辺テキスト情報のテキスト特徴,緯度経度のベクトルの3種類の方法で表現し,認識対象の写真の画像特徴量と合わせて用いることによって認識精度が向上することが示した.こうした大量の画像を用いた実験は,本研究費で購入した高性能クラスタ計算機および大容量ファイルサーバを利用してすることによって可能になったものである.最終年度の来年度は,こうした成果を応用して,最終的に1000種類以上のカテゴリ認識が可能な一般画像認識システムの実現を目指す.
|