2015 Fiscal Year Research-status Report
映像認識に有効な多層の識別的構造を持つ新しいモーション特徴の研究
Project/Area Number |
15K00249
|
Research Institution | Waseda University |
Principal Investigator |
植木 一也 早稲田大学, 理工学術院, 助教 (80580638)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 識別的モーション特徴 / オプティカルフロー画像 / CNN |
Outline of Annual Research Achievements |
平成27年度は,多層の構造を持つ識別的かつ高精度なモーション特徴量の開発を行った.映像から動作や動きなどのイベントを認識するための従来手法であるDense trajectoryの考え方を,近年,様々なタスクにおいて高い識別精度を示しているConvolutional neural network(以下,CNN)に融合することで,新しい識別的なモーション特徴を開発することを目指した. 具体的には,Dense trajectoryで使われる勾配の特徴や動きを捉えるオプティカルフローの特徴を抽出するため,映像の各フレームから勾配画像とオプティカルフロー画像を作成し,それらをCNNで学習するアプローチを取った.このように学習した勾配画像用CNNに勾配画像を,オプティカルフロー画像用CNNにオプティカルフロー画像を入力したのち,各CNNの中間層から識別的な特徴を抽出した.特徴が抽出された後は,カテゴリ毎に勾配画像用の識別器と,オプティカルフロー画像用の識別器を作成し,最終的に複数識別器の統合を行った. 本手法の有効性を確認するため,米国国立標準技術研究所(NIST)が主催している国際競争型映像検索・評価ワークショップ(TRECVID)で用いられる大規模映像コーパス(2014年の学習映像とテスト映像)を用いて評価を行った.評価指標には,各カテゴリの適合率の平均(mean Average Precision:mAP)というTRECVIDで使用されている指標を用い,元画像から直接特徴を抽出する従来方法と相補的な特徴が得られることが確認できた.具体的には, ImageNet画像データベースで学習されたCNNを特徴抽出に用いた従来手法のmAPが28.49だったのに対し,本研究提案のモーション特徴量を加えることにより30.97まで向上することが確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年の当初はDense trajectory の特徴(勾配の特徴,オプティカルフローの特徴,オプティカルフローの勾配特徴)をそのまま使用し,次元拡張と正準相関分析による識別的次元圧縮を繰り返す構造を行い,Bag-of-FeaturesやFisher vector等でエンコーディングする手法を検討していた.この方法は,小中規模の一般物体認識用画像データベースや,詳細画像認識用画像データベースを用いた際には想定通りの効果が得られることが実験により確認できた.しかしながら,特徴の次元数が莫大になることから,大規模な映像から特徴を抽出して認識するまでのステップに時間がかかりすぎるという問題点があった.そのため,平成28年度に実施予定であった新しいモーション特徴用CNNを用いた手法を前倒しし,同時に検討を行ったところ,想定していた通りの精度が確認でき,識別的かつ従来の特徴と相補的な特徴が得られることが確認できた. 一方,実際にユーザが検索クエリを用いて映像検索を行う際,識別的なモーション特徴を抽出できたとしても,検索クエリに対応する学習データ(映像)が極端に少ない環境下においては,あまり高い精度が得られないという問題があることがわかってきた.TRECVIDで使用される約100万の大規模映像を用いた場合でも,検索クエリに対応する学習データは,数百から数千(少ないものでは数十)しか集められないことから,CNNを学習するにはデータ数が不十分であり,またそのような学習映像を大量に収集することも難しいという課題が残されている.これに対しては,画像や映像が簡単に手に入りやすい単純なクラスを多数準備し,検索クエリをそれらの組み合わせで表現する,類似したカテゴリを活用することで補完する等,新たに検討していく予定である.
|
Strategy for Future Research Activity |
平成28,29年度は継続してCNNを用いた特徴抽出方法を検討していく.当初,平成28年に実施予定であった項目のうち,一部のものは実施済みであるため,他の未実施項目を中心に検討していく. まずは,複数フレームを同時に入力可能なCNNモデルに関する検討を行う.静止画の認識におけるCNNは,画像処理を殆ど施さないRGBの生の画像データを大量に入力して学習することで,自動的に識別に有効な特徴を得ることができ,他の手法に比べて圧倒的な識別精度を実現している.映像から識別的なモーション特徴を抽出できるCNNについても,可能な限り特別な画像処理を行わない生データを入力する仕組みも検討する必要があると考える.具体的には,連続する固定長の複数フレームにおける生の画像データを,特別な画像処理することなく直接的に読み込み,ラベル情報を出力するようなネットワークを学習する.その際には学習データを時間方向へ摂動させる等,考慮しなければいけない事項も数多くある. また,差分画像,動きの変化,追跡結果を入力とするCNNモデルの構築の検討も行う.複数フレームの生データを入力すると,入力データのバリエーションが多すぎて,ネットワークの重みパラメータが適切に推定できない可能性も考えられる.そのため,事前に画像認識を行い,モーション認識に必要と思われる情報を事前に抽出することも同時に検討する.ネットワークの入力としては,昨年度実施したオプティカルフローの情報に加え,フレーム間の差分情報,オプティカルフォローの勾配等が有効と考えている. また,実際の映像検索の場面においては,ユーザが検索する際に使用する検索クエリに対応する学習映像が極端に少ない場合や,検索したい検索クエリそのものを表す学習映像が手に入らない場合の対応も課題についても,上記の項目に加えて検討していく予定である.
|
Causes of Carryover |
物品費に関しては,計算機の購入の際,予算見積もりをした段階よりも高性能な計算機が必要となったため,予定していた額よりも多く支出した.また,早い段階で成果が出て,国際会議で発表する機会が予定よりも多かったため,旅費に関しても予定よりも多く支出することとなった. そのため,予定していた画像・映像保存用ストレージを購入するのに十分な予算が足りなくなり,結果的に次年度に持ち越すこととなった.
|
Expenditure Plan for Carryover Budget |
成果が多く出始めていることから,当初の予定よりも研究発表する機会を増える見込みである.そのため,次年度使用額は,国際会議での発表に必要な旅費と,昨年度購入予定であった画像・映像保存用ストレージを購入する分に割り当てる.
|
Research Products
(4 results)