2021 Fiscal Year Annual Research Report
Fine-grained video retrieval from large-scale video using query sentences containing unknown concepts
Project/Area Number |
18K11362
|
Research Institution | Meisei University |
Principal Investigator |
植木 一也 明星大学, 情報学部, 准教授 (80580638)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 映像検索 / クエリ文 / TRECVID / 未知の概念 / 画像/言語の同時埋め込み |
Outline of Annual Research Achievements |
2021年度は,交付申請書に記載した【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」と,【研究項目4】「全体の統合システムを作成して評価を実施」に関する研究を引き続き遂行した. 【研究項目3】については,近年提案されている画像/言語の同時埋め込み手法であるImproving Visual-Semantic Embeddings (VSE++),Graph Structured Matching Network (GSMN),Object Semantics Aligned Pre-training (Oscar),Contrastive Language-Image Pre-Training (CLIP)を用いて,映像検索への応用を検討した.VSE++,GSMNについては,説明文が付与されている画像を約3,000,000枚収集し,画像/言語の埋め込みの学習に利用した.一方,OscarとCLIPについては,自前で収集した画像よりも多くの画像を学習したモデルが公開されているため,それらを利用して映像検索に活用した. 【研究項目4】は,作成したシステムの性能をTRECVID映像検索ベンチマークに提出することにより評価した.GSMNで利用されている物体検出ベースの特徴抽出方法は,クエリ文からの映像検索においても有効であることがわかった.また,CLIPのように大量の説明文付きの画像を学習したモデルは汎用性が高く,どのようなクエリ文が入力された場合においてもロバストに検索が可能であった.また,説明文付きの映像データセットは,説明文付きの画像データセットに比べて極端にデータ数が少ないことから,現時点では,映像からフレーム画像を抽出して画像/言語の埋め込みモデルを用いる手法の方が,映像を高精度に検索できるということが明確となった.
|
Research Products
(4 results)