本年度は,映像の時系列的特性をモデル化する手法を提案した.具体的には,n-gramモデルに基づいた映像中の動作・物体の出現のモデル化を行った.これは,与えられた映像データにおける,人間の動作と物体の出現を,その出現頻度に応じて予測することで,映像検索の精度を高めるものである.例えば,「喋っている」,「走っている」などの動作や「自転車」などの物体がどのような順序・頻度で映像中に出現するかを確率的に予測することが出来る. 本手法の有用性は,TRECVID大規模映像コーパスにおける評価実験で示した.TRECVIDは国際競争型のワークショップで,約100時間,映像ショット数にして20万以上のデータセットが提供されている.評価実験では,50種類の動作・物体の認識精度を評価し,評価尺度のMean Average Precisionで32.14%,従来手法から5.0%(相対値)の改善を得た.この研究成果は国際会議ACM Multimedia 2014および国際ワークショップTRECVIDで発表を行った. 上記は,本研究課題の目標である,動作に基づいた情報検索の根幹技術として位置づけられる.具体的には,映像データ中の動作を解析する部分にあたるため,今後は装着型端末で収録されたデータとの組合せが必要となる.そのため,装着型端末とカメラを組合せたデータからの特徴抽出を行い,動作をクエリとした検索方法の実装が今後の課題として挙げられる.
|