2022 Fiscal Year Annual Research Report

一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測

Research Project

Project/Area Number	22F22378
Allocation Type	Single-year Grants
Research Institution	The University of Tokyo
Principal Investigator	佐藤洋一東京大学, 生産技術研究所, 教授 (70302627)
Co-Investigator(Kenkyū-buntansha)	HUANG YIFEI 東京大学, 生産技術研究所, 外国人特別研究員
Project Period (FY)	2022-11-16 – 2025-03-31
Keywords	人物行動センシング / 動作認識 / ドメイン適応
Outline of Annual Research Achievements	一人称視点映像からの人物行動理解に関して、今年度は2つの研究テーマに取り組み成果を得た。まず、映像からの人物行動理解における基本タスクの一つである動作認識に関して、如何にしてモデル学習時と適用時における環境や人物などによる違い（ドメインギャップ）に影響を受けにくい動作認識モデルを実現するかという課題に取り組んだ。特に、RGB画像、動き、音という異なるモダリティ情報が持つ相補性に着目し、異なるモダリティ特徴のインタラクションによりドメインギャップの影響を軽減する手法としてCross-Modal Interactive Alignmentを新たに提案し、複数の動作認識ベンチマークデータセットを用いた教師無しドメイン適応の評価実験において、state-of-the-artの性能を達成することに成功した。この成果はトップ会議CVPR 2022に採択された。さらに、動作認識の高度化に向けて、少量データからの動作認識モデルの学習について研究を進めた。Compound Prototype Matchingと呼ばれる手法を新たに提案し、新たな動作カテゴリに対して大量の学習データを必要とすることなく、動作ラベル付きの少数の映像データのみから新たな動作を高い精度で認識することを可能とした。この手法は、フレーム単位とオブジェクト単位の特徴の関係からグローバルとローカルな特徴のプロトタイプを取得し、それらのマッチングに基づき少数の学習データのみから動作カテゴリを認識するというアプローチ（図5）に基づいており、その新規性と有効性が高く評価されトップ会議ECCV 2022に採択された。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測について、動作認識モデルの教師無しドメイン適応と、少量学習データによる動作認識モデルの学習の2つの課題に取り組み、それぞれコンピュータビジョン分野のトップ国際会議に論文が採択された。このことから当初の計画以上の進展が得られたと考える。
Strategy for Future Research Activity	一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測に関して、今後は映像情報に加えて、人物の発話内容から得られる言語情報と人物の視線情報を考慮することにより、動作と視覚的注意の推定と予測へと発展させていくことを予定している。さらに、これまでに開発した手法を活用し、作業のやり方を説明している様子を記録したinstructional videoから行動に関する知識の自動抽出と作業支援システムへの応用に取り組む。

Research Products
(2 results)

All 2022

All Presentation (2 results) (of which Int'l Joint Research: 2 results)

[Presentation] Compound Prototype Matching for Few-shot Action Recognition2022
- Author(s)
  Yifei Huang, Lijin Yang, and Yoichi Sato
- Organizer
  European Conference on Computer Vision (ECCV 2022)
- Int'l Joint Research
[Presentation] Interact before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition2022
- Author(s)
  Lijin Yang, Yifei Huang, Yusuke Sugano, and Yoichi Sato
- Organizer
  IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022)
- Int'l Joint Research

2022 Fiscal Year Annual Research Report

一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測

Principal Investigator

佐藤 洋一 東京大学, 生産技術研究所, 教授 (70302627)

Current Status of Research Progress

Reason

Research Products

[Presentation] Compound Prototype Matching for Few-shot Action Recognition2022

Author(s)

Organizer

[Presentation] Interact before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition2022

Author(s)

Organizer

佐藤洋一東京大学, 生産技術研究所, 教授 (70302627)