2012 Fiscal Year Research-status Report
シーン内の文脈情報を利用した高速画像分類手法の実現
Project/Area Number |
23500237
|
Research Institution | Tokyo Polytechnic University |
Principal Investigator |
姜 有宜 東京工芸大学, 工学部, 准教授 (10582893)
|
Keywords | コンピュータビジョン / コンテキスト情報 / 画像自動分類 |
Research Abstract |
コンピュータビジョン研究では様々なコンテキスト情報を用いて物体を認識する研究が提案されている。そこで、本研究ではシーンコンテキストスケール(Scene-Context Scale)と呼ばれる新しい文脈情報を開発しその情報に基づいて画像を高速に自動分類する研究を提案した。今年度は、自動画像分類のため画像からスケールごとに特徴量を抽出し、その特徴量を統合した新しいマルチカーネル学習(Multiple kernel learning)手法を提案した。開発したシーンコンテキストスケールを用いた特徴量は広いスケール空間から各画像ごとに特徴量を抽出したため、画像のローカル特徴とグローバル特徴が共に存在している。マルチカーネル学習方法は、複数の画像特徴を統合し、高精度な認識を行うため利用されている。本研究で提案しているスケール最適化されたテクストンは、異なるスケール空間から抽出された様々な特徴量であるため、今年度にはその特徴量をより効果的に統合できる新しいマルチカーネルのモデルを構築した。構築したマルチカーネル学習手法の有効性を確認するため、様々な画像データベース(Oxford flower dataset, Caltech 101 dataset, and MIT Scene Categorization dataset)を用いて自動画像分類の実験を行った。その結果、従来手法に比べ、分類精度の向上が得られることを確認した。実験結果は論文にまとめ、コンピュータビジョン関連学会 (19th Korea-Japan Workshop on Frontiers of Computer Vision)と画像専門雑誌(画像ラボ)、学術論文誌(画像電子学会)などにその成果を発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
画像を自動的に分類するシステムには、画像の中にある物体に対してその物体のスケール最適化が考慮されていない。そのため、画像群中でスケール変化が大きい物体の認識は困難であり、性能低下の原因になっている。そこで、我々は、1) シーン内の物体のスケールを文脈情報として利用、画素ごとにスケール最適化された特徴量を求め、2) 求めた特徴量をより効果的に統合する学習方法も提案し、3) 最終的には大規模画像データベースから高速化された画像分類(Image Categorization)を実現するのが研究の目的である。昨年度にはシーン内の物体のスケールを文脈情報として利用、スケール最適化されたテクストンと呼ばれる画像特徴量を求めた。そして、今年度にマルチスケールによく使われるcoarse-to-fine modelに基づいてHierarchical Spatial Matching Kernelと言う新しいマルチカネル学習方法を提案した。提案したマルチカーネル学習方法はマルチスケール画像特徴を統合するため用いられ、高速高精度な認識を行う時に利用可能な手法である。提案した手法は様々な画像データベースを用いて画像自動分類の実験を行った結果、その有効性が確認されたため、最初に建てられた研究計画通り画像自動分類(Image Categorization)の研究は順調に進展しているところである。
|
Strategy for Future Research Activity |
今後の研究の推進方策は、今まで得られたスケール最適化された画像特徴量テクストンと新しいマルチカーネ統合ル学習(Multiple kernel learning)手法を統合し、大規模画像データベースに画像分類実験を行う予定である。さらに、画像分類の性能を向上するためシーンコンテキストスケールを用いて求めたテクストンと物体の周りにあるテクスチャ情報を統合し新しい文脈情報を利用する予定である。物体の周りにあるテクスチャ情報は画像の中にある物体のセマンティック(Semantic)情報になり、物体のシーンコンテキストスケール情報と共に統合することで画像分類の性能を向上させるのが予想される。物体のセマンティック情報は画像分類以外にも画像の領域分割(Image Segmentation)や物体認識の研究に適用可能になるので、実際画像データベースから実験を行いその有効性を確認する予定である。さらに、データベースはWeb上で公開されている画像データベースと実際カメラから収集して生成した新しい画像データベース両方を用いてその性能を評価する計画である。
|
Expenditure Plans for the Next FY Research Funding |
平成25年度には,提案した手法の有効性を確認するため実際カメラから多くの画像を収集し、幅広い画像データベースから画像自動分類と物体認識や領域分割の実験などを行う予定である。そのため、実験用64ビットパソコンを購入、実験を加速する共にその研究成果を国内外に発表する予定である。また、画像のデータ量が膨大になるため、データ蓄積用ディスクアレイを購入し、取得したデータの保存や整理のためデータ保存用補助記憶装置を購入する予定である。また研究成果を国内外で発表するための出張旅費と会議参加費及び論文別刷り代がを主な経費として計上している。
|
Research Products
(3 results)