研究概要 |
本研究では画像中に何が写っているかを自動判定する一般物体認識のため、画像における局所的な特徴量とその空間配置を語彙と対応づけるシステムを構築することを目的とした。 画像と語彙の組を取得するため、World Wide Web上で公開されている画像データに着目した。これらの画像の多くはHTMLで記述されたWebページ中に埋め込まれており、周辺のテキストは画像に写されている対象(オブジェクト)と関連していることが多い。本研究ではこれらの周辺テキスト中の語彙と画像に写された対象(オブジェクト)に対して機械学習を適用し、画像・画像特徴量・語彙の相互変換システムを実装した。 特には画像を単なる特徴量の集まりではなく、特定の意味 を担う記号的構成要素(オブジェクト)の集まりであるとみなし、それぞれの構成要素がどのような意味的役割を果たしているかをトピックモデルに基づいて推定する手法の研究を進め,その有向性を検証した。 画像データのソースとしてWeb検索を利用することにより、任意のカテゴリを対象とした画像認識システムを短時間/低コストで実現することが可能になる。また、このデータを用いて画像集合中からその単語において表されるもっとも典型的な画像の候補を求める手法を提案し、実験によって評価した。 これらの結果について、2本の雑誌論文を発表した。
|