2019 Fiscal Year Research-status Report

Building a Video Search Engine based on the Perception of Spatio-temporal Relations

Research Project

Project/Area Number	19K12028
Research Institution	Kindai University
Principal Investigator	白浜公章近畿大学, 理工学部, 准教授 (30467675)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	映像検索 / 物体の時空間的関係 / グラフたたみ込み / 記憶伝達 / 強化学習 / TRECVID
Outline of Annual Research Achievements	交付申請書に記載した3つの手法のうち，1. 物体の時空間的関係を考慮した映像検索手法，2. 映像に対する人間の記憶伝達メカニズムを模倣する関数を学習する手法の開発を行った．1.の手法に関しては，まず，与えられた映像のフレームごとに物体を検出し，時間的もしくは空間的に近い位置ある物体をつなげて，物体の時空間的関係を表すグラフを構築する．そして，グラフたたみ込みネットワークという手法を用いて，物体間の関係を考慮しながら、各物体の視覚特徴（見た目やポーズなど）を抽象化し、与えられた映像が特定の意味内容に適合するかどうか検証する手法を開発した．米国標準技術局（NIST）から提供された大規模ベンチマークデータ（合計118本、4.2時間のHD画質の映像）を用いた実験では，現在のところ，開発した手法は，19種類のイベント（会話している、荷物を運んでいるなど）約30%の精度で認識できる．さらに，2.の手法に関しては，強化学習という枠組みを用いて，指定した容量の範囲で映像中の内容を最大限記憶するために，各フレームの内容（視覚特徴）をどれだけ記憶するか意思決定するモデルを学習する手法を開発した．上記と同様，NISTから提供された映像データを用いて実験したところ，最初は全く一貫性のない記憶しかできない本モデルが，何度も映像を解析していくうちに，視覚的に特徴的なフレームを重点的に記憶できるようになっていくことを確認している．上記の2手法に加えて，「映像検索は，テキスト形式で与えられた検索要求と画像の系列である映像という異種のデータを対応づけるタスクである」という観点から，意味的な関連性を保持したまま異種のデータを同一空間に写像して，ある種類のデータから意味的に対応する別の種類のデータを横断的に検索可能な手法を開発し，ITIB 2020という国際会議で発表予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究では，物体の時空間的関係を考慮した映像検索手法，フレーム間の記憶の伝達方法をモデル化して映像の意味を解析する手法，映像に対する人間の記憶伝達メカニズムを模倣するモデルを学習する手法という3つの手法を開発することを計画していた．これに対して，上記の「研究実績の概要」で述べた通り，1番目と3番目の手法は既に実装済みであり，現在，手法の改良及び性能評価を行なっている．これが終わり次第，両手法とも，2020年度中に国際会議で発表する予定である．特に，1番目の手法を用いて，2020年11月に開催予定のNIST主催の世界的な映像解析コンテストTRECVIDに参加予定であり，既にエントリーを済ませている．さらに，2020年度中に2番目の手法を実装し，かつこの手法に3番目の手法で学習された記憶伝達モデルを導入して，性能向上を図る予定である．このように，当初予定していた3つの手法のうち2つは既に実装済み，残りの1つ2020年度中に実装・改良を行う予定であり，研究はおおむね順調に進展していると言える．
Strategy for Future Research Activity	大きな研究計画の変更はなく，当初の予定通り本研究を遂行していく予定であるが，当初予定していたよりも多くのことを探求できそうである．具体的には，物体の時空間的関係を考慮した映像検索手法に関しては，精度をさらに向上させるために，時空間的関係性に加えて，物体の種類も考慮したグラフの作成，出現頻度を考慮したグラフたたみ込みネットワークに基づく意味内容の検証手法について検討する．フレーム間の記憶の伝達方法をモデル化して映像の意味を解析する手法に関しては，後述の手法によって学習された記憶伝達モデルを導入すること，及びこの手法を映像中の意味内容を表す文章を自動生成するビデオキャプショニングに応用予定である．映像に対する人間の記憶伝達メカニズムを模倣するモデルを学習する手法に関しては，内部で使用している記憶構造をより洗練されたものに変更する予定である．最後に，本研究で開発した手法は，国際会議で発表するだけでなく，研究代表者の研究グループのWebサイト（https://mu-www.info.kindai.ac.jp/）でソースコードや使用データを順次公開していく予定である．

Research Products
(2 results)

All Int'l Joint Research (1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Int'l Joint Research] リューベック大学(ドイツ)
- Country Name
  GERMANY
- Counterpart Institution
  リューベック大学
[Presentation] Cross-modal Music-emotion Retrieval Using DeepCCA2020
- Author(s)
  Naoki Takashima, Frederic Li, Marcin Grzegorzek and Kimiaki Shirahama
- Organizer
  The Eighth International Conference on Information Technology in Biomedicine (ITIB 2020)
- Int'l Joint Research