2018 年度実績報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

研究課題/領域番号	15K16019
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	映像認識
研究実績の概要	平成３０年度は，これまでに作成した映像認識フレームワークを，映像からのイベント及びアクティビティの検出に応用し，解像度やフレームレートが異なる映像に対しても頑健に検出が可能であることを確認した．TRECVIDデータセットにおける実験の結果，検出精度に関しては良好な結果が得られているが，計算量が当初の想定よりも大きいという状況であった．特に，入力映像の解像度が高い場合については，計算量の問題が顕著である．この問題に対しては，画像領域セグメンテーションを行うMask R-CNNや時系列情報をモデル化して動作検出を行うACT Detectorなど，最新の画像認識・映像認識手法の比較検討を進めている．今後は，高解像度・高フレームレートの映像に対して，時系列データを効率的にモデル化し，計算量やメモリ使用量を削減したネットワークの研究・開発が必要になると考えられる．音データの解析については予想していた効果が得られず，課題が残る形となった．これは，実験で用いたインターネット上の映像の多くが，雑音が多い状況で撮影されていることと，事後的に挿入されたBGMや効果音が多いことが原因である．この原因を除去するためには，データセットのクリーニング(クラウドソーシングによるラベル付与)が必要であるが，そのための予算が十分に確保できなかった．そのため，平成３０年度は前述のイベント及びアクティビティの検出に注力する形とした．

研究成果
(2件)

すべて学会発表 (2件) (うち国際学会 1件、招待講演 1件)

[学会発表] Activity Detection in Extended Video using Action Tubelets (VANT at TRECVID 2018)2018
- 著者名/発表者名
  Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
- 学会等名
  TRECVID
- 国際学会
[学会発表] 画像・映像認識2018
- 著者名/発表者名
  井上中順
- 学会等名
  人工知能学会
- 招待講演