2019 Fiscal Year Research-status Report
未知の概念を含むクエリ文を用いた大規模映像からの詳細映像検索
Project/Area Number |
18K11362
|
Research Institution | Meisei University |
Principal Investigator |
植木 一也 明星大学, 情報学部, 准教授 (80580638)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 映像検索 / クエリ文 / TRECVID / 未知の概念 / 画像/言語の同時埋め込み |
Outline of Annual Research Achievements |
2019年度は,計画通り【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」を中心に取り組んだ.2018年の取り組みである【研究項目2】「言語・画像・映像資源を用いた潜在的な概念の獲得」において,大規模な言語・画像・映像データベース,特にその中でも言語資源の単語数の豊富さが映像検索の精度を左右することがわかった.そのため2019年度は,まず画像に対応する説明文(キャプション)が付与されているデータベース調査し,MS COCO(画像数:約120,000,キャプション数:約600,000),flickr 8k(画像数:約8,000,キャプション数:約40,000),flickr 30k(画像数:約30,000,キャプション数:150,000),Conceptual Captions(画像数:約3,000,000,キャプション数:約3,000,000)を統合した大規模データベースを構築した.次にニューラルネットワークを用いて画像と説明文を同一空間上に写像するモデルの学習を行う画像/言語の同時埋め込み手法を実装した.TRECVIDベンチマークの大規模映像と実際にベンチマークで出題されたクエリ文を用いて,この手法の有効性を確認した.画像/言語の同時埋め込み手法では,大量のキャプション付きの画像を学習してモデルを作成したことから,事前に学習された概念識別器を活用する手法(コンセプトベースの手法)でカバーできない概念の多くを補完できることがわかった.特に「a crowd of people」,「talking on a cell phone」のようなフレーズに対応できることが確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
【研究項目1】「クエリ文に合致した少量の映像からの潜在的概念の獲得」については,2018年度に予定通り研究を遂行できた.TRECVIDベンチマークのAVSタスクで用いられている300,000個以上の映像,事前準備していた約50,000種類の概念抽出器を用いて評価することで,その有効性を確認済み. 【研究項目2】の①「言語資源を用いた方法」については,Universal Sentence Encoderの活用と,英語の概念辞書(意味辞書)であるWordNetの導入により,潜在的概念を獲得可能となった.②「画像・映像資源を用いた方法」,③「双方を統合する方法」については,【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」と同時に取り組むことで実現可能となった. 【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」は,上記の研究実績の概要で示した通り,MS COCO, flickr 8k,flickr 30k,Conceptual Captionsといった大規模な画像とキャプションデータベースを用いて学習を行い,画像と説明文を同一空間上に写像する方法(画像/言語の同時埋め込み手法)を検討した.TRECVIDベンチマークの大規模映像を用いた評価により、クエリ文から直接的に映像検索を行えることが確認できた. 以上,2018年度,2019年度に実施予定の【研究項目1】,【研究項目2】,【研究項目3】は予定通り進んでいる.
|
Strategy for Future Research Activity |
【研究項目3】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」で取り組んだ画像/言語の同時埋め込み手法では,従来のコンセプトベースの手法でカバーできない概念の多くを補完でき,かつ,フレーズに対応できることが確認できた.しかしながら,TRECVIDベンチマークの評価指標(Mean Average Precision:mAP)による結果を比較すると,特定の物体や人物の行動を確実に捉えることができるコンセプトベースの手法の方が全体の精度が高い結果となった.そのため2020年度は,コンセプトベースの手法と,画像と説明文を同一空間上に写像する手法の相補性について調査をし,それぞれの手法を強化していく予定である.さらに,共同研究を実施している企業と共に,開発した技術の応用先の検討や,事業への活用方法の検討も同時に進めていく.
|
Causes of Carryover |
物品費に計上していた予算は,他の助成金が採択され,そちらを優先的に使用したため,予定していた額よりも少なくなった. 今後の研究費の使用については,研究成果を発表するための費用として,学会投稿費用や,国際会議等で発表するための旅費を予定よりも多めに使用していく可能性がある.
|