2018 Fiscal Year Research-status Report
未知の概念を含むクエリ文を用いた大規模映像からの詳細映像検索
Project/Area Number |
18K11362
|
Research Institution | Meisei University |
Principal Investigator |
植木 一也 明星大学, 情報学部, 准教授 (80580638)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 映像検索 / クエリ文 / TRECVID / 未知の概念 |
Outline of Annual Research Achievements |
2019年度は,計画通り【研究項目1】「クエリ文に合致した少量の映像からの潜在的概念の獲得」と,【研究項目2】「言語・画像・映像資源を用いた潜在的な概念の獲得」に取り組んだ. 【研究項目1】については,クエリ文に完全に合致した少量のデータ(画像・映像)を収集し,そのデータがすでにある概念とどの程度相関があるかを分析することにより,クエリ文中に直接に記述されていない潜在的な概念を新たに獲得できることを確認した.例えば,クエリ文「destroyed buildings」に合致する画像を準備し,各画像を概念識別器で評価して,関連のある概念の抽出を試みた.その結果,「destroyed buildings」に近い意味の「ruin」が選択されていることがわかった.また,相関の高い概念をさらに確認してみたところ,「garbage heap」「dump」等,直接的に関係ないが,画像の特徴としては近い(視覚的に近い)概念が選ばれていることがわかった.実はこれらの概念を利用して映像検索をすることで,映像検索の精度を向上できることが明らかになった. 【研究項目2】については,近年Googleが開発したUniversal Sentence Encoderを活用し,クエリ文に近い概念を直接的に取得することを試みた.具体的には,クエリ文をチャンクに分けたフレーズまたはクエリ文全体をエンコードしたベクトルと,概念識別器名との対応付けを行うことにより,新たな潜在的概念の獲得を目指した.また,概念識別器名は,英語の概念辞書(意味辞書)であるWordNetと紐付いていることから,単語の上位概念や辞書の定義文も活用することで,さらに潜在的概念を獲得した.この手法により,検索キーワードと識別器名の対応付けを行う際,同じ識別器名を持つが意味が違った概念識別器を誤って選んでしまうケースを軽減できることがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
【研究項目1】「クエリ文に合致した少量の映像からの潜在的概念の獲得」については,予定通り研究を遂行できた.様々なクエリ文についても調査をし,TRECVIDベンチマークのAVSタスクで用いられている300,000個以上の映像,事前準備していた約50,000種類の概念抽出器を用いて評価することで,その有効性を確認することができた. 【研究項目2】については,①「言語資源を用いた方法」,②「画像・映像資源を用いた方法」,③「双方を統合する方法」をそれぞれ検討し,映像検索に適した潜在的な概念を抽出する方式とそれを実現するために必要な資源の明確化に取り組んだ.①「言語資源を用いた方法」については,上記で示した通り,Universal Sentence Encoderの活用と,英語の概念辞書(意味辞書)であるWordNetの導入により,予定通り潜在的概念を獲得することができた.②「画像・映像資源を用いた方法」については,③「双方を統合する方法」と同時に取り組み,画像・映像と言語(クエリ文)を共通の一空間上に写像する手法を検討中である.実際にMS COCO, flickr 8k,flickr 30k,Conceptual Captionsといった大規模な画像とキャプションデータベースを用いて学習を行い,画像と説明文を同一空間上に写像し,TRECVIDベンチマークの大規模映像を用いてクエリ文から直接的に映像検索を行えることも予備実験により確認できた.
|
Strategy for Future Research Activity |
【研究項目2】の基本方式開発がほぼ予定通り進んでいることから,当初の予定通り【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」を中心に研究を進める.ここで実現したいことは,【研究項目2】の③の言語資源と画像・映像資源を用いた方法の延長線上にあることがわかってきたため,まずはMS COCO, flickr 8k,flickr 30k,Conceptual Captions等の大規模な画像とキャプションデータベースを用いて学習を行い,画像と説明文を同一空間上に写像する手法を,映像検索にも拡張する方向性で進めていく予定である. また,【研究項目1】【研究項目2】【研究項目3】を統合する映像検索システムの構築は,2020年度を予定していたが,前倒しして各研究項目を早い段階でシステム化することを検討している.特に,作成したシステムをTRECVIDベンチマーのAVSタスクにエントリーし,大規模映像を用いて評価実験を行うことで,各手法の有効性や問題点をいち早く確認していく予定である. さらに,共同研究を実施している企業と共に開発した技術の実用化も進めたいと考えている.現状では大量のカメラで撮影された莫大なコンテンツから人の目視により確認するには限界があることから,カメラ映像の自動認識技術について検討を進め,事業への活用方法についても検討を進めていく.これにより,人手による映像検索の省力化,莫大なロケーションからシーンの絞り込み,スクープ性の高いショットの検出などが期待される.
|
Causes of Carryover |
物品費や旅費に計上していた予算は,他の財団の助成金が採択され,そちらを優先的に使用したため,予定していた額よりも少なくなった. 今後の研究費の使用については,研究成果が出始めていることから,今後は学会投稿費用や,国際会議等で発表するための旅費を予定よりも多めに使用していく可能性がある.
|
Research Products
(6 results)