2015 Fiscal Year Annual Research Report
社会規模での大規模コーパス収集による映像検索エンジンの再構築
Project/Area Number |
26280040
|
Research Institution | Kobe University |
Principal Investigator |
上原 邦昭 神戸大学, その他の研究科, 教授 (60160206)
|
Co-Investigator(Kenkyū-buntansha) |
松原 崇 神戸大学, その他の研究科, 助教 (70756197)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 機械学習 / 映像検索 / 映像データ / コーパス / 深層学習 |
Outline of Annual Research Achievements |
本年度は、人間の視覚機構に則した物体認識に基づく映像検索手法を開発した。物体認識では、物体の見た目の変動要因(向き,回転,大きさなど)に頑健なモデルの構築に重点が置かれているが、このようなモデルは映像検索には適切ではない。例えば、「犬が映っている映像」を検索する際、背景領域に「小さく後ろ向きに映っている犬」が検索されても、ユーザにとって有用ではない。そこで、Focus of Attention (FoA)という、映像中でユーザが注目していると思われる領域(注目領域)を抽出する手法を開発した。最終的に、注目領域に映っている物体が優先的に認識され検索に利用される。
本研究で開発したFoA手法は、ボトムアップ、トップダウンという2つの処理からなる。前者は、外発的成分による網膜上の視覚刺激によって引き起こされ、色,エッジといった特徴量に関して周囲と異なる領域が注目領域と判定される。しかしながら、物理的な低次の特徴量だけからでは、人間の知覚に関する高次の注目領域を高精度に検出することは困難である。そこで、人間の意図,知識といった内発的成分によって引き起こされるトップダウン処理を用いて、ボトムアップ処理による注目領域を洗練させる。具体的には、文脈手がかりという「物体の空間的レイアウトが類似している映像では、同じような領域を注目領域と見なしやすい」という知識に基づいて、事前に注目領域がラベル付けされている映像との類似性から、対象映像の注目領域を修正する。特に、注目領域のラベル付けに係る人的コストを削減するために、弱教師付き学習という手法を用いて、注目されている物体名のみがラベル付けされた映像から、注目領域(物体領域)を自動推定するトップダウン処理を開発した。実験では、FoAを物体認識に導入することの有効性、及び手動によるラベル付けを弱教師付き学習で置き換えることの妥当性を示している。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
「研究実績の概要」で示した、FoAを導入した物体認識手法に関しては、MMEDIA 2015 (7th International Conferences on Advances in Multimedia, バルセロナ) で研究発表を行ったところ、優秀論文に選ばれて (http://www.iaria.org/conferences2015/AwardsMMEDIA15.html)、論文の拡張版が International Journal on Advances in Software に収録されている。これを持って、本研究課題で当初予定していた3つの研究テーマの全てについて、一定の開発・研究成果を得たことになる。具体的には、以下のとおりである。 1. 物体認識の不確実性の定量化:Dempster-Shafer (DS)理論を用いて、物体認識の不確実性を詳細に表現する手法を開発した。 2. 最尤推定に基づく不確実性を考慮した映像検索:上記のDS理論に基づく表現方法を最尤推定に導入し、物体認識の不確実性を考慮した映像検索手法を開発した。 上記の1.と2.の詳細は、書籍Multimedia Data Mining and Analyticsの12章に収録されている(前年度報告済み)。 3. 映像からの注目領域の検出:FoAを導入して、注目領域に映っている物体が優先的に認識することにより、人間の視覚機構に則した映像検索手法を開発した。この成果は、International Journal on Advances in Softwareに収録されている。
|
Strategy for Future Research Activity |
今年度は、研究申請書の「研究計画・方法」に「多方面からの検討」として記載した、深層学習(Deep learning)を用いた高精度な物体認識モデルの構築に取り組む。このような背景として、従来はSIFTやHOGといった、事前に人手でデザインされた特徴量を用いて物体認識が行われてきたが、多種多様な物体の見た目を事前に網羅することには限界がある。そこで、深層学習を用いて、数百万枚の画像に対して、一万種類以上の物体の出現がアノテーションされた大規模コーパス(ImageNet)から、物体認識に有用な特徴量を学習する手法を開発する。ただし、この画像から学習された特徴量(以下、"画像特徴量")では、映像中のフレーム間の時間的関係性を考慮できない。そこで、画像特徴量を長・短記憶(Long Short-Term Memory)というメカニズムを有するニューラルネットワークの入力として、有用な画像特徴量の時間的推移を表す"時間特徴量"を抽出する手法を開発する。最終的に、画像特徴量、時間特徴量の両者を用いて物体認識を行う。
上記の研究により、これまでよりも高精度な物体認識が達成できた場合は、開発済みの不確実性を考慮した映像検索手法、及び注目領域中の物体に基づく検索手法において、物体認識モジュールを変更する予定である。また、TRECVID 2016のAd-hoc Video Searchタスクというコンテストに参加して、大規模な映像データ(4593本のWeb動画、144GB)を対象として、本研究で開発した検索手法と世界の研究機関で開発されたものと性能比較を行う。
|
Causes of Carryover |
「現在までの進捗状況」でも報告した通り、本研究課題は当初の計画以上に進展している。今年度は、研究申請書の「研究計画・方法」において「多方面からの検討」として記載していた、深層学習(Deep learning)を用いた高精度な物体認識モデルの構築に取り組む予定である。ただ、深層学習には多大な計算コストを必要とし、本申請者が所有する計算機環境では十分でない。このため、GPGPUによる計算が実行可能な計算サーバを購入するため、昨年度の予算と合わせて購入することとした。
|
Expenditure Plan for Carryover Budget |
深層学習を導入する研究背景として、従来は、事前に人手で設計された特徴量を用いる物体認識の研究が主流を占めていたが、多種多様な物体の見た目を事前に網羅することは困難である。このため、近年、従来手法では認識精度の向上にも限界が生じることが分かってきた。今年度は、深層学習を用いて、数百万枚の画像に対して、一万種類以上の物体の出現がアノテーションされた大規模コーパス(ImageNet)から、物体認識に有用な特徴量を学習する手法を開発する予定である。上記のGPGPU計算サーバは、この学習過程で使用することを目的としている。
|
Research Products
(7 results)