• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

映像とキャプション系列のマルチモーダル解析による物体状態認識

研究課題

研究課題/領域番号 22K21296
研究機関国立研究開発法人産業技術総合研究所

研究代表者

八木 拓真  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)

研究期間 (年度) 2022-08-31 – 2024-03-31
キーワード物体状態認識 / 大規模言語モデル / 映像字幕からの学習
研究実績の概要

2022年度に引き続き大規模言語モデルを用いた状態の自動列挙による状態認識手法の開発(テーマC)を行い、字幕中に豊富に含まれる行動情報をキーとして大規模言語モデルから特定の物体状態(例:an egg is boiled, a shirt is dry) を抽出し映像から物体状態の出現区間を検出するモデルの開発を行った。
調理動画など特定の作業を説明・実況しているインターネット映像中に含まれる音声から自動抽出した字幕情報には作業中に何をしたか(行動)の情報が多く含まれ、完璧ではないもののおおよその行動出現タイミングが推定できる。一方物体状態に関する説明はあまり明示的に語られないため、物体状態認識器の直接の学習は困難であった。そこで、行動と状態との関係性に関する知識を持っていることが示唆された大規模言語モデルを用いて、ある時刻において行動情報の系列から明示的に各状態が存在するかどうかを推論することで物体状態認識器のための時刻付きの疑似ラベルが生成できることを見出し、字幕情報から物体状態ラベルを推論するフレームワークを提案した。また、新たに評価用データセットとして6種類の物体、約60種類の物体状態の発生時刻ラベルを付与したものを作成し、提案フレームワークの有効性の評価を行った。
実験の結果、提案手法によって訓練されたモデルは画像・動画認識それぞれでもちいられる強力な基盤モデルと比較して顕著に高い性能を示し、比較的収集が容易な字幕情報からの物体状態認識モデルの構築に成功した。
計画当初は物体状態認識にあたって専用のアノテーションが必要であるという前提条件を置いていたが、大規模言語モデルの活用によりアノテーションを回避できることがわかり、最終的により柔軟で汎用性のある枠組みを実現した。

  • 研究成果

    (2件)

すべて 2024 2023

すべて 学会発表 (2件) (うち国際学会 1件)

  • [学会発表] Learning Object States from Actions via Large Language Models2024

    • 著者名/発表者名
      Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato
    • 学会等名
      CVPR 2024 Workshop Learning from Procedural Videos and Language: What is Next?
    • 国際学会
  • [学会発表] 大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識2023

    • 著者名/発表者名
      舘野将寿, 八木拓真, 古田諒佑, 佐藤洋一
    • 学会等名
      第26回画像の認識・理解シンポジウム

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi