2011 Fiscal Year Research-status Report
シーン内の文脈情報を利用した高速画像分類手法の実現
Project/Area Number |
23500237
|
Research Institution | Tokyo Polytechnic University |
Principal Investigator |
姜 有宜 東京工芸大学, 工学部, 准教授 (10582893)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 画像認識 / 情報システム / 人工知能 / 知覚情報処理 / 知能ロボティクス / コンピュータビジョン |
Research Abstract |
シーンコンテキスト(Scene-Context)情報は、物体認識とシーン解析の研究において重要な手がかりを与える。これまで様々なシーンコンテキスト情報が研究されてきたが、本研究ではシーンコンテキストスケー(Scene-Context Scale)と呼ばれる新しい文脈情報を開発し、その情報に基づいて画像を高速に自動分類する手法を提案した。今年度は、画像毎に物体の有効なローカルコンテキストの範囲を決めるシーンコンテキストスケールを推定する方法を提案した。さらに、入力画像からテクストン(Texton)という高密度の特徴量を抽出する際、シーンコンテキストスケール情報に基づいて、スケール最適化された特徴量を求めることで画像分類の精度を向上した。シーンコンテキストスケールは、高速特徴抽出器であるランダムフォレスト(Random Forest)を使うことでより高速に推定することが可能になった。提案した手法の有効性を確認するため、画像データベース(MSRC21)を用いて評価実験を行った。その結果、従来手法に比べ、大幅な分類精度の向上が得られることを確認した。実験結果は論文にまとめ、コンピュータビジョン関連国際学会 (International Conference on Image Analysis and Recognition 2011, IEEE International Symposium on Multimedia 2011, The Fifth Pacific-Rim Symposium on Image and Video Technologyなど)と学術論文誌(IEICE Trans. on Information and Systems)に発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今までの画像自動分類システムでは、画像ごとのスケール最適化が考慮されていないため、画像群中でスケール変化が大きい物体の認識は困難であり、性能低下の原因になっている。そこで、我々は、1) シーン内の物体のスケールを文脈情報として利用、画素ごとにスケール最適化された特徴量を求め、2) 求めた特徴量をより効果的に統合する学習方法も提案し、3) 最終的には大規模画像データベースから高速化された画像分類(Image Categorization)を実現するのが研究の目的である。今年度までは、最初にシーン内の物体のスケールを文脈情報として利用、スケール最適化された特徴量を求めた。画像から抽出した特徴量の密度が高いほど高性能な画像分類を実現することができる。そこで、我々はテクストン(texton)と呼ばれる代表的な高密度の特徴量を画像のピクセルごとに求め、スケール最適化した。そのプロセスは、画像のピクセルごとに行うため、高速処理が重要である。最近提案されたランダムフォレスト(Random Forests)という学習手法は、高速かつ高性能が可能になる新しい手法の一つである。そのランダムフォレストをマルチスケール(Multi-scale)に拡張し、そこから画像ごとに正しいシーンコンテキストスケールを推定、スケール最適化されたテクストンを高速に抽出したので、最初に研究計画通り順調に進展しているところである。
|
Strategy for Future Research Activity |
今後の研究の推進方策は、今年度に得られたスケール最適化された高密度な画像特徴量を画像のスケールごとにローカル特徴量とグローバル特徴量に分け、統合する新しいマルチカーネル学習(Multiple kernel learning)手法を提案する。画素ことに抽出されたシーンコンテキストスケール情報に用いて、スケール最適化されたテクストンをより正確に推定し、マルチカーネル学習により、より効果的に統合する学習方法を提案する。スケール最適化されたテクストンは、広いスケール空間から各画像のスケールごとに抽出したため、画像のローカル特徴とグローバル特徴が共に存在している。マルチカーネル学習は、複数の画像特徴を統合し、高精度な認識を行うため利用する予定である。今後は、異なるスケール空間から抽出された様々な特徴量をより効果的に統合するため、新しいマルチカーネルのモデルを構築する。提案したマルチカーネル学習手法は、画像分類、また画像のセグメンテーションまで適用する計画である。今年はWeb上で公開されている画像データベースを使ったので、実際カメラからの画像収集する作業は翌年度に実施することにした。そのため、画像収集用サーバの費用24万円とパソコンに取り込むためのフレームグラバの費用30万円の残額が生じた。残額は次年度使用計画と合わせて執行する予定である。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度には,画像収集用サーバとパソコンに取り込むためのフレームグラバを購入し、実際カメラから多くの画像を収集する作業を行う事で、幅広い画像データベースを構築する予定である。さらに、成果発表用64bitノートパソコンも購入、研究成果の国内外での発表を加速する予定である。また、画像のデータ量が膨大になるため、データ蓄積用ディスクアレイを購入する。その他は、取得したデータの保存や整理のためデータ保存用DVDとUSBメモリーを消耗品として、また研究成果を国内外で発表するための出張旅費と会議参加費及び論文別刷り代がを主な経費として計上している。
|
Research Products
(5 results)