2020 Fiscal Year Research-status Report
Building a Video Search Engine based on the Perception of Spatio-temporal Relations
Project/Area Number |
19K12028
|
Research Institution | Kindai University |
Principal Investigator |
白浜 公章 近畿大学, 理工学部, 准教授 (30467675)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 映像検索 / 物体の時空間的関係 / グラフたたみ込み / 記憶伝達 / 強化学習 / TRECVID |
Outline of Annual Research Achievements |
交付申請書に記載した「1. 物体の時空間的関係を考慮した映像検索手法」,「2. フレーム間の意味的な連続性を考慮しながら,映像をコンパクトなベクトルに圧縮する手法」,「3. 映像に対する人間の記憶伝達メカニズムを模倣するモデルを学習する手法」という3つのテーマに取り組んだ. 1.に関しては,既に2019年度に,映像中の物体の時空間的な関係を表すグラフを構築し,グラフたたみ込みネットワークを用いて,物体間の関係を考慮しながら,各物体の視覚特徴を抽象化し,特定のイベントの発生を検出する手法を開発していた.2020年度は,この手法に対して,より正確な物体の隣接関係の検証に基づくグラフの高品質化,イベント検出をマルチクラス分類として定式化することによる精度改善に取り組んだ.そして,世界的な映像解析コンテストTRECVID 2020で,大規模な監視カメラ映像から35種類のイベントを検出するタスクに参加し,開発手法と世界中の研究機関で開発された手法との精度比較を行った. 2.に関しては,3.で開発した手法に対する比較手法として,長短期記憶(LSTM)のメモリユニットをフレーム間で伝達・更新される記憶と見立てて,映像を,フレームの視覚特徴を高精度に再現可能なベクトルに圧縮する手法を開発した. 3.に関しては,既に2019年度に,強化学習の枠組みで,映像中の各フレームの内容(視覚特徴)をどの程度記憶するかという意思決定を行うモデルを学習する手法を開発していた.2020年度は,TRECVID 2009で提供された長時間の219本の映像を用いて,先読みに基づく記憶更新手法,2.で開発した手法との比較を通して,強化学習に基づく手法の方が,後続のフレームと記憶との適合度が高くなる,つまりより適切に映像の内容を記憶できていることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
評価の理由は,交付申請書に記載した3つの手法の実装は既に完了しており,現在は,各手法の性能評価及び改良を行っているからである.まず,物体の時空間的な関係を表すグラフに基づくイベント検出手法に関しては,TRECVID 2020で,他の研究機関で開発された手法との精度比較や研究発表を既に行っている.そして,開発したイベント検出手法の精度が十分でないことが分かったため,現在,物体検出手法,物体の表現方法,イベント検出手法に関する改良を行っている.
映像をコンパクトなベクトルに圧縮する手法,人間の記憶伝達メカニズムを模倣するモデルを学習する手法についても,既に実装は完了しており,現在,徹底的な性能評価を行っているところである.性能評価に予想以上の時間を要している理由は,本研究で取り組んでいる記憶伝達メカニズムの模倣といった研究はこれまでに行われておらず,性能評価の基準やベースライン手法の策定に手間取ったからである.ただし,この点に関しても見通しは立っており,本年度中に,開発した記憶伝達メカニズム獲得手法を国際ジャーナルもしくは国際会議で発表する予定である.
最後に,映像は時間軸上でフレームが順番に再生される時系列データであり,本研究で映像に対して開発した手法をウェアラブル端末から得られるセンサデータに応用して,行動認識手法や集中度推定手法を開発し,国際ジャーナルや国内研究会で発表している.
|
Strategy for Future Research Activity |
物体の時空間的な関係を表すグラフに基づくイベント検出手法の精度改善に当たっては,これまでは,異なるフレームで検出された同一物体の領域をグラフのエッジで接続していたが,これだけでは,物体の視覚特徴の時間的変化を十分に捉えられていない可能性がある.そこで,本年度は,異なるフレームで検出された同一物体の領域をつなぎ合わせて,物体領域の時間的変遷を表す3次元チューブを構成するアプローチについて検討する.そして,3次元のたたみ込みニューラルネットワークを3次元チューブに適応すれば,グラフのエッジよりも,物体の視覚特徴の時間的変化をより直接的に扱えるため,イベント検出精度の向上が期待できる.
記憶伝達メカニズムを模倣するモデルの学習手法に関しては,映像ごとにフレームの視覚特徴やその分散が大きく異なるため,学習時に意思決定の良し悪しを表す評価値(報酬)の算出が安定しないという問題が出てきた.そこで,評価値を正規化する処理を導入して,これまでよりさらに有用な記憶伝達メカニズムを模倣可能なモデルの学習を試みる.さらに,これまでは,記憶の表現形式として,視覚特徴の重み付き平均を用いてきたが,指数荷重移動平均やフレームを直接保存するバッファを用いるアプローチについても検討する.
|
Causes of Carryover |
コロナウィルスの感染拡大を受け,当初予定していた海外出張が行えず,海外出張費として計上していた50万円のいくらかが残ったため.
|
Research Products
(8 results)