2018 Fiscal Year Annual Research Report

Multi-Input Deep Learning and Its Application to Video Recognition

Research Project

Project/Area Number	15K16019
Research Institution	Tokyo Institute of Technology
Principal Investigator	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
Project Period (FY)	2015-04-01 – 2019-03-31
Keywords	映像認識
Outline of Annual Research Achievements	平成３０年度は，これまでに作成した映像認識フレームワークを，映像からのイベント及びアクティビティの検出に応用し，解像度やフレームレートが異なる映像に対しても頑健に検出が可能であることを確認した．TRECVIDデータセットにおける実験の結果，検出精度に関しては良好な結果が得られているが，計算量が当初の想定よりも大きいという状況であった．特に，入力映像の解像度が高い場合については，計算量の問題が顕著である．この問題に対しては，画像領域セグメンテーションを行うMask R-CNNや時系列情報をモデル化して動作検出を行うACT Detectorなど，最新の画像認識・映像認識手法の比較検討を進めている．今後は，高解像度・高フレームレートの映像に対して，時系列データを効率的にモデル化し，計算量やメモリ使用量を削減したネットワークの研究・開発が必要になると考えられる．音データの解析については予想していた効果が得られず，課題が残る形となった．これは，実験で用いたインターネット上の映像の多くが，雑音が多い状況で撮影されていることと，事後的に挿入されたBGMや効果音が多いことが原因である．この原因を除去するためには，データセットのクリーニング(クラウドソーシングによるラベル付与)が必要であるが，そのための予算が十分に確保できなかった．そのため，平成３０年度は前述のイベント及びアクティビティの検出に注力する形とした．

Research Products
(2 results)

All Presentation (2 results) (of which Int'l Joint Research: 1 results, Invited: 1 results)

[Presentation] Activity Detection in Extended Video using Action Tubelets (VANT at TRECVID 2018)2018
- Author(s)
  Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
- Organizer
  TRECVID
- Int'l Joint Research
[Presentation] 画像・映像認識2018
- Author(s)
  井上中順
- Organizer
  人工知能学会
- Invited