平成30年度は,これまでに作成した映像認識フレームワークを,映像からのイベント及びアクティビティの検出に応用し,解像度やフレームレートが異なる映像に対しても頑健に検出が可能であることを確認した.TRECVIDデータセットにおける実験の結果,検出精度に関しては良好な結果が得られているが,計算量が当初の想定よりも大きいという状況であった.特に,入力映像の解像度が高い場合については,計算量の問題が顕著である.この問題に対しては,画像領域セグメンテーションを行うMask R-CNNや時系列情報をモデル化して動作検出を行うACT Detectorなど,最新の画像認識・映像認識手法の比較検討を進めている.今後は,高解像度・高フレームレートの映像に対して,時系列データを効率的にモデル化し,計算量やメモリ使用量を削減したネットワークの研究・開発が必要になると考えられる. 音データの解析については予想していた効果が得られず,課題が残る形となった.これは,実験で用いたインターネット上の映像の多くが,雑音が多い状況で撮影されていることと,事後的に挿入されたBGMや効果音が多いことが原因である.この原因を除去するためには,データセットのクリーニング(クラウドソーシングによるラベル付与)が必要であるが,そのための予算が十分に確保できなかった.そのため,平成30年度は前述のイベント及びアクティビティの検出に注力する形とした.
|