一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測
Project/Area Number |
22KF0119
|
Project/Area Number (Other) |
22F22378 (2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2022) |
Section | 外国 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
佐藤 洋一 東京大学, 生産技術研究所, 教授 (70302627)
|
Co-Investigator(Kenkyū-buntansha) |
HUANG YIFEI 東京大学, 生産技術研究所, 外国人特別研究員
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2024: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2023: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2022: ¥400,000 (Direct Cost: ¥400,000)
|
Keywords | 人物行動センシング / 動作認識 / ドメイン適応 |
Outline of Research at the Start |
本研究では、一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測と題し、映像情報から人の行動の予測を可能とする技術の開発に取り組むものである。特に、Embodied AIの考え方に基づき、ウェアラブルカメラから得られる一人称視点映像に焦点を当て、人物の動作、行動、注意の3つの側面を統合しモデリングすることにより、高い精度での行動予測を可能とすることを目指す。
|
Outline of Annual Research Achievements |
一人称視点映像からの人物行動理解に関して、今年度は2つの研究テーマに取り組み成果を得た。まず、映像からの人物行動理解における基本タスクの一つである動作認識に関して、如何にしてモデル学習時と適用時における環境や人物などによる違い(ドメインギャップ)に影響を受けにくい動作認識モデルを実現するかという課題に取り組んだ。特に、RGB画像、動き、音という異なるモダリティ情報が持つ相補性に着目し、異なるモダリティ特徴のインタラクションによりドメインギャップの影響を軽減する手法としてCross-Modal Interactive Alignmentを新たに提案し、複数の動作認識ベンチマークデータセットを用いた教師無しドメイン適応の評価実験において、state-of-the-artの性能を達成することに成功した。この成果はトップ会議CVPR 2022に採択された。さらに、動作認識の高度化に向けて、少量データからの動作認識モデルの学習について研究を進めた。Compound Prototype Matchingと呼ばれる手法を新たに提案し、新たな動作カテゴリに対して大量の学習データを必要とすることなく、動作ラベル付きの少数の映像データのみから新たな動作を高い精度で認識することを可能とした。この手法は、フレーム単位とオブジェクト単位の特徴の関係からグローバルとローカルな特徴のプロトタイプを取得し、それらのマッチングに基づき少数の学習データのみから動作カテゴリを認識するというアプローチ(図5)に基づいており、その新規性と有効性が高く評価されトップ会議ECCV 2022に採択された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測について、動作認識モデルの教師無しドメイン適応と、少量学習データによる動作認識モデルの学習の2つの課題に取り組み、それぞれコンピュータビジョン分野のトップ国際会議に論文が採択された。このことから当初の計画以上の進展が得られたと考える。
|
Strategy for Future Research Activity |
一人称視点教示映像のマルチモーダル解析による人物行動の学習と予測に関して、今後は映像情報に加えて、人物の発話内容から得られる言語情報と人物の視線情報を考慮することにより、動作と視覚的注意の推定と予測へと発展させていくことを予定している。さらに、これまでに開発した手法を活用し、作業のやり方を説明している様子を記録したinstructional videoから行動に関する知識の自動抽出と作業支援システムへの応用に取り組む。
|
Report
(1 results)
Research Products
(2 results)