研究概要 |
本研究の目的は,計算機による画像認識システムが実世界中の「物」を認識するための知識をWWW(World-Wide Web)から自動獲得するための手法を提案することである.具体的には, (1)WWWから様々な種類の物体の画像をできるだけ精度よく大量に自動収集し, (2)収集した画像を内容既知として,未知の実世界画像を自動分類するシステムを実現することを目的とする. 本年度は初年度であるので,第1段階として,キーワードによって指定された画像をWWWより収集するシステムを実現した.具体的には,「一般にWWW上の画像は,画像の内容と密接に関係したWebページ中に含まれているので,WebページのHTMLドキュメントを解析することによって,画像を説明するキーワードを抽出することが可能である.」という性質を用いて,WWWテキストサーチエンジンを利用して,指定されたキーワードに関するWebページを大量に収集し,Webページに含まれるキーワードと画像自身の画像特徴量を併用してクラスタリング処理することによって,キーワードと画像特徴量ベクトルの対応付けを自動的に行った.さらにキーワードと画像の対応付けの時に,画像特徴空間とWebページの単語ベクトル空間を統合する新しい方法の導入によって,より精度の高い画像収集の実現を行った.また,確率モデルの導入によって収集精度の向上を実現した. また,最新のPentium4 3.8GHz 10台から成るクラスタ計算機システムを構築し,現在並列画像収集システムを実装中である.これについては来年度も引き続き研究を行う予定である.
|