一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測

研究課題

研究課題/領域番号	22KF0119
補助金の研究課題番号	22F22378 (2022)
研究種目	特別研究員奨励費
配分区分	基金 (2023) 補助金 (2022)
応募区分	外国
審査区分	小区分61010:知覚情報処理関連
研究機関	東京大学
研究代表者	佐藤洋一東京大学, 生産技術研究所, 教授 (70302627)
研究分担者	HUANG YIFEI 東京大学, 生産技術研究所, 外国人特別研究員
研究期間 (年度)	2023-03-08 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	2,200千円 (直接経費: 2,200千円) 2024年度: 700千円 (直接経費: 700千円) 2023年度: 1,100千円 (直接経費: 1,100千円) 2022年度: 400千円 (直接経費: 400千円)
キーワード	一人称視点映像解析 / 人物行動理解 / 行動認識 / 行動予測 / 人物行動センシング / 動作認識 / ドメイン適応
研究開始時の研究の概要	本研究では、一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測と題し、映像情報から人の行動の予測を可能とする技術の開発に取り組むものである。特に、Embodied AIの考え方に基づき、ウェアラブルカメラから得られる一人称視点映像に焦点を当て、人物の動作、行動、注意の3つの側面を統合しモデリングすることにより、高い精度での行動予測を可能とすることを目指す。
研究実績の概要	本研究では、一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測と題し、映像をもとにした人物行動理解のための基盤技術の開発に取り組んだ。特に、今年度は人の行動を記述したテキストをクエリとして映像から該当区間を見つけるtemporal sentence groundingと、手物体操作に関わるアフォーダンスのモデリングの2つのテーマに取り組み成果を得た。前者に関して、映像中の該当区間の開始時刻と終了時刻のアノテーションを必要としない弱教師有り学習に注目し、モデル予測の不確定性を考慮した自己学習に基づく手法により既存手法を大幅に越える性能を実現した。また、後者のアフォーダンスのモデリングに関して、既存研究では手物体操作におけるアフォーダンスの定義に誤りがあることを指摘した上で、一人称視点映像データセットEPIC-KITCHENに対して正しいアフォーダンスラベルを付与するためのアプローチを提案し、新たに構築したデータセットを用いることで動作認識やアフォーダンス認識の精度が大幅に改善されることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究で得られた成果について、コンピュータビジョン分野のトップ国際会議CVPRに1件、主要国際会議のWACVに1件の論文を発表することが出来た。
今後の研究の推進方策	当初の研究計画に沿って研究を進めていく。

報告書

(2件)

2023 実施状況報告書
2022 実績報告書

研究成果
(4件)

すべて 2023 2022

すべて学会発表 (4件) (うち国際学会 4件)

[学会発表] Weakly Supervised Temporal Sentence Grounding with Uncertainty-Guided Self-training2023
- 著者名/発表者名
  Yifei Huang, Lijin Yang, and Yoichi Sato
- 学会等名
  IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Fine-grained Affordance Annotation for Egocentric Hand-Object Interaction Videos2023
- 著者名/発表者名
  Zecheng Yu, Yifei Huang, Ryosuke Furuta, Takuma Yagi, Yusuke Gotsu, and Yoichi Sato
- 学会等名
  IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2023)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Compound Prototype Matching for Few-shot Action Recognition2022
- 著者名/発表者名
  Yifei Huang, Lijin Yang, and Yoichi Sato
- 学会等名
  European Conference on Computer Vision (ECCV 2022)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Interact before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition2022
- 著者名/発表者名
  Lijin Yang, Yifei Huang, Yusuke Sugano, and Yoichi Sato
- 学会等名
  IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022)
- 関連する報告書
  2022 実績報告書
- 国際学会

一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測

研究代表者

佐藤 洋一 東京大学, 生産技術研究所, 教授 (70302627)

2,200千円 (直接経費: 2,200千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Weakly Supervised Temporal Sentence Grounding with Uncertainty-Guided Self-training2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Fine-grained Affordance Annotation for Egocentric Hand-Object Interaction Videos2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Compound Prototype Matching for Few-shot Action Recognition2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Interact before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition2022

著者名/発表者名

学会等名

関連する報告書

佐藤洋一東京大学, 生産技術研究所, 教授 (70302627)