2015 Fiscal Year Annual Research Report

社会規模での大規模コーパス収集による映像検索エンジンの再構築

Research Project

Project/Area Number	26280040
Research Institution	Kobe University
Principal Investigator	上原邦昭神戸大学, その他の研究科, 教授 (60160206)
Co-Investigator(Kenkyū-buntansha)	松原崇神戸大学, その他の研究科, 助教 (70756197)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	機械学習 / 映像検索 / 映像データ / コーパス / 深層学習
Outline of Annual Research Achievements	本年度は、人間の視覚機構に則した物体認識に基づく映像検索手法を開発した。物体認識では、物体の見た目の変動要因（向き，回転，大きさなど）に頑健なモデルの構築に重点が置かれているが、このようなモデルは映像検索には適切ではない。例えば、「犬が映っている映像」を検索する際、背景領域に「小さく後ろ向きに映っている犬」が検索されても、ユーザにとって有用ではない。そこで、Focus of Attention (FoA)という、映像中でユーザが注目していると思われる領域（注目領域）を抽出する手法を開発した。最終的に、注目領域に映っている物体が優先的に認識され検索に利用される。本研究で開発したFoA手法は、ボトムアップ、トップダウンという2つの処理からなる。前者は、外発的成分による網膜上の視覚刺激によって引き起こされ、色，エッジといった特徴量に関して周囲と異なる領域が注目領域と判定される。しかしながら、物理的な低次の特徴量だけからでは、人間の知覚に関する高次の注目領域を高精度に検出することは困難である。そこで、人間の意図，知識といった内発的成分によって引き起こされるトップダウン処理を用いて、ボトムアップ処理による注目領域を洗練させる。具体的には、文脈手がかりという「物体の空間的レイアウトが類似している映像では、同じような領域を注目領域と見なしやすい」という知識に基づいて、事前に注目領域がラベル付けされている映像との類似性から、対象映像の注目領域を修正する。特に、注目領域のラベル付けに係る人的コストを削減するために、弱教師付き学習という手法を用いて、注目されている物体名のみがラベル付けされた映像から、注目領域（物体領域）を自動推定するトップダウン処理を開発した。実験では、FoAを物体認識に導入することの有効性、及び手動によるラベル付けを弱教師付き学習で置き換えることの妥当性を示している。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 「研究実績の概要」で示した、FoAを導入した物体認識手法に関しては、MMEDIA 2015 (7th International Conferences on Advances in Multimedia, バルセロナ) で研究発表を行ったところ、優秀論文に選ばれて (http://www.iaria.org/conferences2015/AwardsMMEDIA15.html)、論文の拡張版が International Journal on Advances in Software に収録されている。これを持って、本研究課題で当初予定していた3つの研究テーマの全てについて、一定の開発・研究成果を得たことになる。具体的には、以下のとおりである。 1. 物体認識の不確実性の定量化：Dempster-Shafer (DS)理論を用いて、物体認識の不確実性を詳細に表現する手法を開発した。 2. 最尤推定に基づく不確実性を考慮した映像検索：上記のDS理論に基づく表現方法を最尤推定に導入し、物体認識の不確実性を考慮した映像検索手法を開発した。上記の1.と2.の詳細は、書籍Multimedia Data Mining and Analyticsの12章に収録されている（前年度報告済み）。 3. 映像からの注目領域の検出：FoAを導入して、注目領域に映っている物体が優先的に認識することにより、人間の視覚機構に則した映像検索手法を開発した。この成果は、International Journal on Advances in Softwareに収録されている。
Strategy for Future Research Activity	今年度は、研究申請書の「研究計画・方法」に「多方面からの検討」として記載した、深層学習（Deep learning）を用いた高精度な物体認識モデルの構築に取り組む。このような背景として、従来はSIFTやHOGといった、事前に人手でデザインされた特徴量を用いて物体認識が行われてきたが、多種多様な物体の見た目を事前に網羅することには限界がある。そこで、深層学習を用いて、数百万枚の画像に対して、一万種類以上の物体の出現がアノテーションされた大規模コーパス（ImageNet）から、物体認識に有用な特徴量を学習する手法を開発する。ただし、この画像から学習された特徴量（以下、"画像特徴量"）では、映像中のフレーム間の時間的関係性を考慮できない。そこで、画像特徴量を長・短記憶（Long Short-Term Memory）というメカニズムを有するニューラルネットワークの入力として、有用な画像特徴量の時間的推移を表す"時間特徴量"を抽出する手法を開発する。最終的に、画像特徴量、時間特徴量の両者を用いて物体認識を行う。上記の研究により、これまでよりも高精度な物体認識が達成できた場合は、開発済みの不確実性を考慮した映像検索手法、及び注目領域中の物体に基づく検索手法において、物体認識モジュールを変更する予定である。また、TRECVID 2016のAd-hoc Video Searchタスクというコンテストに参加して、大規模な映像データ（4593本のWeb動画、144GB）を対象として、本研究で開発した検索手法と世界の研究機関で開発されたものと性能比較を行う。
Causes of Carryover	「現在までの進捗状況」でも報告した通り、本研究課題は当初の計画以上に進展している。今年度は、研究申請書の「研究計画・方法」において「多方面からの検討」として記載していた、深層学習（Deep learning）を用いた高精度な物体認識モデルの構築に取り組む予定である。ただ、深層学習には多大な計算コストを必要とし、本申請者が所有する計算機環境では十分でない。このため、GPGPUによる計算が実行可能な計算サーバを購入するため、昨年度の予算と合わせて購入することとした。
Expenditure Plan for Carryover Budget	深層学習を導入する研究背景として、従来は、事前に人手で設計された特徴量を用いる物体認識の研究が主流を占めていたが、多種多様な物体の見た目を事前に網羅することは困難である。このため、近年、従来手法では認識精度の向上にも限界が生じることが分かってきた。今年度は、深層学習を用いて、数百万枚の画像に対して、一万種類以上の物体の出現がアノテーションされた大規模コーパス（ImageNet）から、物体認識に有用な特徴量を学習する手法を開発する予定である。上記のGPGPU計算サーバは、この学習過程で使用することを目的としている。

Research Products
(7 results)

All 2015 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 2 results, Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results) Book (1 results)

[Int'l Joint Research] ジーゲン大学(ドイツ)
- Country Name
  GERMANY
- Counterpart Institution
  ジーゲン大学
[Journal Article] Semantic Indexing based on Focus of Attention Extended by Weakly Supervised Learning2015
- Author(s)
  Kimiaki Shirahama, Tadashi Matsumura, Marcin Grzegorzek and Kuniaki Uehara
- Journal Title
  
  International Journal on Advances in Software
  
  Volume: 8 Pages: 410-419
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Weakly Supervised Detection of Video Events Using Hidden Conditional Random Fields2015
- Author(s)
  Kimiaki Shirahama, Marcin Grzegorzek and Kuniaki Uehara
- Journal Title
  
  International Journal of Multimedia Information Retrieval
  
  Volume: 4 Pages: 17-32
- DOI
  10.1007/s13735-014-0068-6
- Peer Reviewed / Int'l Joint Research
[Presentation] University of Siegen, Kobe University and NICT at TRECVID 2015 SIN and MED Tasks2015
- Author(s)
  Kimiaki Shirahama, Takashi Shinozaki, Yasuyuki Matsumoto, Marcin Grzegorzek and Kuniaki Uehara
- Organizer
  TREC Video Retrieval Evaluation (TRECVID) 2015 Workshop
- Place of Presentation
  Maryland, USA
- Year and Date
  2015-11-16 – 2015-11-18
- Int'l Joint Research
[Presentation] Deep Learningの中間層学習表現を利用した動画像の意味解析2015
- Author(s)
  松本泰幸、篠崎隆志、上原邦昭
- Organizer
  2015年度第29回人工知能学会全国大会 (JSAI 2015)
- Place of Presentation
  公立はこだて未来大学（北海道・函館市）
- Year and Date
  2015-05-30 – 2015-06-02
[Presentation] Empowering Semantic Indexing with Focus of Attention2015
- Author(s)
  Kimiaki Shirahama, Tadashi Matsumura, Marcin Grzegorzek and Kuniaki Uehara
- Organizer
  Proc. of the 7th International Conferences on Advances in Multimedia (MMEDIA 2015)
- Place of Presentation
  Barcelona, Spain
- Year and Date
  2015-04-19 – 2015-04-24
- Int'l Joint Research
[Book] Aaron K. Baughman, Jiang Gao, Jia-Yu Pan and Valery Petrushin (eds.)　Multimedia Data Mining and Analytics: Disruptive Innovation2015
- Author(s)
  Kimiaki Shirahama, Kenji Kumabuchi, Marcin Grzegorzek and Kuniaki Uehara (12章, pp. 269-294, 分担執筆) ”Video Retrieval Based on Uncertain Concept Detection Using Dempster-Shafer Theory”
- Total Pages
  454
- Publisher
  Springer

2015 Fiscal Year Annual Research Report

社会規模での大規模コーパス収集による映像検索エンジンの再構築

Principal Investigator

上原 邦昭 神戸大学, その他の研究科, 教授 (60160206)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] ジーゲン大学(ドイツ)

Country Name

Counterpart Institution

[Journal Article] Semantic Indexing based on Focus of Attention Extended by Weakly Supervised Learning2015

Author(s)

Journal Title

[Journal Article] Weakly Supervised Detection of Video Events Using Hidden Conditional Random Fields2015

Author(s)

Journal Title

DOI

[Presentation] University of Siegen, Kobe University and NICT at TRECVID 2015 SIN and MED Tasks2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Deep Learningの中間層学習表現を利用した動画像の意味解析2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Empowering Semantic Indexing with Focus of Attention2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] Aaron K. Baughman, Jiang Gao, Jia-Yu Pan and Valery Petrushin (eds.) Multimedia Data Mining and Analytics: Disruptive Innovation2015

Author(s)

Total Pages

Publisher

上原邦昭神戸大学, その他の研究科, 教授 (60160206)

[Book] Aaron K. Baughman, Jiang Gao, Jia-Yu Pan and Valery Petrushin (eds.)　Multimedia Data Mining and Analytics: Disruptive Innovation2015