2017 Fiscal Year Annual Research Report
Research on new multi-layer motion features effective for video recognition
Project/Area Number |
15K00249
|
Research Institution | Meisei University |
Principal Investigator |
植木 一也 明星大学, 情報学部, 准教授 (80580638)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 映像検索 / モーション特徴 / CNN / TRECVID |
Outline of Annual Research Achievements |
当初の計画で,平成29年度に実施を予定していた「時間変化を捉える機能を持つ新しいモーション認識用のConvolutional neural network(以下,CNN)の作成」は,平成27年度の後半から先行して研究を遂行することができた.具体的には,映像から連続したフレームを切り抜き,その差分の動作を表すオプティカルフローを画像化し,その画像をCNNで学習するという手法をとることにより動作を捉えることが可能であることがわかった.米国国立標準技術研究所(NIST)が主催している国際競争型映像検索・評価ワークショップ(以下,TRECVID)における大規模映像データベースで評価を行い,その有効性を確認した.単純な動作については,単語ベースのクエリを入力することで検索が可能となったが,一方で,一緒に写り込んでいる物体や,周りのシーンも同時に考慮した,より複雑な動作については検索することが困難であることもわかった.そのため,平成28年度後半から今年度にかけては,人の動作に加え,物体やシーンも同時に含んだクエリ文を用いた映像検索の研究に注力した.研究を遂行する中で,下記の2つの知見を得ることができた.1つ目は,クエリ文中のキーワードに対応するクラスのカバー率を高めるため,様々な画像・映像データセットで学習された物体・人・シーン・動作等のコンセプト識別器を大量に準備し,その組み合わせによりクエリ文を表現することの重要性である.2つ目は,キーワードに対応するコンセプト識別器を選ぶ際,該当するコンセプトが見つからない場合でも,自然言語処理の手法を取り入れることで,より多くのコンセプト識別器を選択できる仕組みの有効性である.この成果を含んだシステムをTRECVIDのAd-hoc Video Search(AVS)タスクに提出したところ,2年連続で世界1位の映像検索精度を達成することができた.
|