映像とキャプション系列のマルチモーダル解析による物体状態認識

研究課題

研究課題/領域番号	22K21296
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	国立研究開発法人産業技術総合研究所 (2023) 東京大学 (2022)
研究代表者	八木拓真国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)
研究期間 (年度)	2022-08-31 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	物体状態認識 / 大規模言語モデル / 映像字幕からの学習 / 状態記述キャプション / 視覚言語モデル
研究開始時の研究の概要	動画像中の物体の状態およびその変化を明示的に説明したキャプション系列（状態記述キャプション）から物体単位での柔軟な状態認識を実現する。具体的には、物体状態変化を含む動画像に対して出現物体の位置・状態およびその変化をもたらした行動や現象を説明するキャプションを新たに付与し、対象物体および周辺の見えの変化と対応づける学習を行うことで物体単位での特徴表現を獲得する。本研究期間では、(a) 状態記述キャプションコーパスの構築 (b) 限られた教師情報からの状態変化領域の自動追跡手法の開発 (c) 物体単位での状態（変化）表現モデルの構築の3項目に取り組む。
研究成果の概要	映像中に出現する物体の状態（例：卵が割れている、ゆでられている）を認識する計算モデルを開発した。物体状態の認識にあたっては映像と対応する物体状態に関する注釈が必要であるが、多様な物体状態の教師情報の収集はコストが高く現実的でない。そこで本研究では、インターネット映像中に含まれる説明文（実況）の情報に大規模言語モデル（LLM）を適用することで多様な物体状態に関する教師情報を自動で生成しモデルの学習を行う新たなフレームワークを提案した。
研究成果の学術的意義や社会的意義	従来人の行動やその周辺環境の理解にあたっては、人が何をしているか（行動）および何があるか（物体）の認識が主で、ある物体が人の行動の結果どのような状態になったかといったシーンの詳細に関する認識が十分に取り組まれていなかった。様々な物体状態を映像から自動で認識することで、例えばロボットが行動を意図した通りに実行できたかを実際に物体の状態が変化したかによって判定でき、より信頼性の高いタスク遂行が期待できる。また、LLMは任意の状態記述に対応できるため語彙の変更が容易で、ユーザの要求に合わせた認識結果を提供することも可能となる。

報告書

(3件)

2023 実績報告書研究成果報告書 ( PDF )
2022 実施状況報告書

研究成果
(3件)

すべて 2024 2023

すべて学会発表 (3件) (うち国際学会 1件)

[学会発表] Learning Object States from Actions via Large Language Models2024
- 著者名/発表者名
  Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato
- 学会等名
  CVPR 2024 Workshop Learning from Procedural Videos and Language: What is Next?
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識2023
- 著者名/発表者名
  舘野将寿, 八木拓真, 古田諒佑, 佐藤洋一
- 学会等名
  第26回画像の認識・理解シンポジウム
- 関連する報告書
  2023 実績報告書
[学会発表] 大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識2023
- 著者名/発表者名
  舘野将寿、八木拓真、古田諒佑、佐藤洋一
- 学会等名
  第26回画像の認識・理解シンポジウム
- 関連する報告書
  2022 実施状況報告書

映像とキャプション系列のマルチモーダル解析による物体状態認識

研究代表者

八木 拓真 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)

2,860千円 (直接経費: 2,200千円、間接経費: 660千円)

報告書

研究成果

[学会発表] Learning Object States from Actions via Large Language Models2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデルを用いた学習カテゴリの自動決定による映像からのオープン語彙物体状態認識2023

著者名/発表者名

学会等名

関連する報告書

八木拓真国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50964277)