2020 Fiscal Year Research-status Report

未知の概念を含むクエリ文を用いた大規模映像からの詳細映像検索

Research Project

Project/Area Number	18K11362
Research Institution	Meisei University
Principal Investigator	植木一也明星大学, 情報学部, 准教授 (80580638)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	映像検索 / クエリ文 / TRECVID / 未知の概念 / 画像/言語の同時埋め込み
Outline of Annual Research Achievements	2020年度は，引き続き【研究項目３】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」を中心に取り組んだ．2019年度に取り組んだ，画像と説明文を同一空間上に写像するモデルを学習する画像/言語の同時埋め込み手法では，画像と言語の大域的な表現を抽出するようなディープニューラルネットワークを学習し，画像と言語の類似性を計算する手法を採用した．しかしながら，画像と言語の大域的な表現を抽出する手法では，画像中の物体と文中の単語の直接的な関係を学習することができないため，画像と言語の対応付けの精度には限界があった．そのため，画像や文の中の一部に対応付けを行い，それらの類似性を集約することにより関連性を測定する手法を導入し，クエリ文からの映像検索のタスクに応用することを検討した．また，事前に学習された概念識別器を活用するコンセプトベースの手法と，画像と説明文を同一空間上に写像する手法の相補性を調査するため，TRECVIDベンチマークのAVSタスクに，個々のシステムと両手法の統合システムを提出した．その結果，統合システムは，個々の手法の相補性を活用することができ，映像検索精度が個々の手法よりも向上することが確認できた．さらに，自然言語処理の分野において発展が著しいTransformerベースの手法の技術導入についても検討を行った．具体的には2021年に入ってから提案された，大量の画像と言語のセットを学習したContrastive Language-Image Pre-Training (CLIP)のモデルを用いて大規模映像による映像検索の予備実験を行った．その結果，今までは未知語が多かったために正しく映像が検索できなかったクエリ文に対しても検索が可能となることが確認できた．また，従来に作成したモデルとの比較により，誤り傾向も異なることがわかった．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 2020年度に実施予定であった，【研究項目３】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」は，2019年度から先行して実施することができたため，概ね予定通りに研究を進めることができた．さらに，画像や文の中の一部に対応付けを行い，それらの類似性を集約するといった学習法についても検討し，その有効性を確認することができた．また，自然言語処理の分野においてTransformerベースの手法が出てきたことから，これらの技術を導入することにより，今まで提案してきた手法を凌駕する精度を叩き出せる見込みがわかってきた．そのため，Transformerベースの手法を映像検索に導入する方法について検討し，プログラミング実装と実験の準備を進めていた．しかしながら，新型コロナウイルスの影響により，自由に計算リソースが使用できない状況に陥り，新たに計画していた実験を進めることできなくなってしまった．また，研究成果を研究論文として発表する機会も少なってしまった．そのため，2021年度に研究期間延長し，継続して本研究計画への取り組み，研究成果を国内外の学会や研究会で発表することを計画している．
Strategy for Future Research Activity	2021年度には，【研究項目３】「クエリ文と映像から直接的に尤もらしさを出力する認識モデルの構築」において2020年度の追加課題となった，Transformerベースの手法の映像検索への導入を主に実施する．事前実験により，以前のモデルではクエリ文に未知語があるため映像が正しく検索できなかった問題の解決できることがわかったため，今後は他のモデルとの相補性の確認や、複数のモデルの統合による映像検索精度の向上を図る．映像検索の評価は，アメリカ国立標準技術研究所（NIST）のTRECVIDベンチマークに参加し，大規模映像を用いて行う予定である．さらに，共同研究を実施している企業と共に，発明したアイディアの権利化，開発した技術の応用先の検討，事業への活用も同時に進めていく．
Causes of Carryover	計上していた予算は，共同研究費を優先的に使用したため，予定していた額よりも少なくなった．また，新型コロナウイルスの影響により，ディープラーニングの学習に利用予定の計算リソースの使用頻度が減ったため，新たに機器を購入する必要がなくなったことも要因の一つである．さらに，研究成果を発表するための学会が中止になったことや，オンライン開催により出張費を使用しなくて済んだことにより，出張関連の予算が予定していた額よりも大幅に減少した．今年度は，購入予定であったネットワークストレージ等の機器や計算機の購入と，研究成果を発表するための費用として学会投稿費用，国際会議等で発表するための旅費として使用する予定である．

Research Products
(5 results)

All 2021 2020

All Presentation (5 results)

[Presentation] 服装の色を用いた人物検索に向けた学習済みモデルの活用2021
- Author(s)
  セイエドネシャドロスタム，武藤良，植木一也，堀隆之，金容範，鈴木裕真
- Organizer
  動的画像処理実用化ワークショップ (DIA2021)
[Presentation] 少数画像をもとにした顔属性データセットの拡張2021
- Author(s)
  山本啓斗，武藤良，植木一也，堀隆之，金容範，鈴木裕真
- Organizer
  動的画像処理実用化ワークショップ (DIA2021)
[Presentation] Waseda_Meisei_SoftBank at TRECVID 2020: Ad-hoc Video Search2020
- Author(s)
  Kazuya Ueki, Ryo Mutou, Takayuki Hori, Yongbeom Kim, Yuma Suzuki
- Organizer
  Notebook paper of the TRECVID 2020 Workshop
[Presentation] 学習済みモデルを用いた大規模映像データにおける特定の色の着衣をつけた人物の検索2020
- Author(s)
  武藤良，セイエドネシャドロスタム，植木一也，堀隆之，金容範，鈴木裕真
- Organizer
  ビジョン技術の実利用ワークショップ(ViEW2020)
[Presentation] OpenPoseを用いた特定の色の服を着た人物の検出2020
- Author(s)
  セイエドネシャドロスタム，武藤良，植木一也
- Organizer
  第26回画像センシングシンポジウム(SSII2020)

2020 Fiscal Year Research-status Report

未知の概念を含むクエリ文を用いた大規模映像からの詳細映像検索

Principal Investigator

植木 一也 明星大学, 情報学部, 准教授 (80580638)

Current Status of Research Progress

Reason

Research Products

[Presentation] 服装の色を用いた人物検索に向けた学習済みモデルの活用2021

Author(s)

Organizer

[Presentation] 少数画像をもとにした顔属性データセットの拡張2021

Author(s)

Organizer

[Presentation] Waseda_Meisei_SoftBank at TRECVID 2020: Ad-hoc Video Search2020

Author(s)

Organizer

[Presentation] 学習済みモデルを用いた大規模映像データにおける特定の色の着衣をつけた人物の検索2020

Author(s)

Organizer

[Presentation] OpenPoseを用いた特定の色の服を着た人物の検出2020

Author(s)

Organizer

植木一也明星大学, 情報学部, 准教授 (80580638)