• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

動画像理解のための時空間情報設計の方法論構築

Research Project

Project/Area Number 22K12090
Research InstitutionNagoya Institute of Technology

Principal Investigator

玉木 徹  名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywordsコンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング
Outline of Annual Research Achievements

本研究の目的は,動画像理解における時空間特徴量の取得方法について,新しい方法論を構築することである.通常の動画像認識では,空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である.しかし本研究では,空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む.従来のアプローチでは,単に別々に特徴量を抽出することが一般的だが,本研究では,時間と空間の情報を関連付けつつも分離するために,所望の性質を満たす特徴量を設計するというアプローチを取る.この手法は,様々な動画認識タスクに応用することが可能である.この新しい枠組みによって得られる特徴量は,例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る.また,時空間情報の分離により,動画像の解析や処理の効率性も向上することが期待される.さらに,この手法は将来的にはロボットや自動運転などの領域において,高度な環境理解や行動予測に役立つ可能性がある.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

現在,動作認識のさまざまな側面に焦点を当てて研究を進めている.
様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタを導入する手法を開発した.現在,アダプタの再設計および複数のドメインに対する損失の動的な重み付け手法をマルチタスク学習の分野から導入する実験を進めており,有望な結果が得られている.画質劣化による情報の欠損やノイズに対しても頑健な動作認識を実現するため,さまざまな画質劣化を適用した低品質な動画像に対してモデルがどの程度正確に動作認識が可能かを評価する実験を行った.これにより,画質劣化が性能にどのような影響を与えるのかが定量的に評価できるようになったため,今後は特徴量に対してどの程度影響を与えるのかの調査が必要である.アテンション機構を用いて,動作認識のために動画像内の重要な領域に注目するためのシャープなアテンションマップの生成手法を開発した.これにより,動作認識のために重要となる領域の評価が可能になったため,動作認識の重要度と特徴量との関係性を調査が可能になると考えている.効率的かつ効果的な動画像認識のために,動画像を3Dとして処理するのではなく,フレーム毎に処理した結果を統合して,特徴量のシフト操作を用いた新しい動画像認識手法を考案した.これにより,長い動画像に対しても効率的に処理を行う方向性が開けた.物体領域のコピー・ペーストを利用する,動作認識のためのデータ拡張にも取り組んだ.これにより,さまざまな人物動作や背景に対しても頑健な動作認識モデルが得られ,現実のシーン内の様々な変動による性能低下を抑えることが期待される.現在,さらなるデータ拡張の方法とその有効性を評価するための実験を行っている.

Strategy for Future Research Activity

動作認識の様々な側面についてのこれまでの研究を更に発展させる.今年度に考案した動作認識手法とその結果から,どのような場合に効果的な特徴量となるのかについての知見が少しずつ得られている.今後は時間的および空間的な特徴にどのように影響を与えるのかを評価しながら研究を進める.また長時間の動画像を効率的に扱うことの重要性が明らかとなったため,効率的な開発を実現するために,どのように動画像を扱えばよいかについての検討も行う.

  • Research Products

    (15 results)

All 2023 2022 Other

All Journal Article (5 results) (of which Peer Reviewed: 5 results,  Open Access: 5 results) Presentation (9 results) (of which Int'l Joint Research: 2 results,  Invited: 1 results) Remarks (1 results)

  • [Journal Article] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023

    • Author(s)
      NITTA Tomoya、HIRAKAWA Tsubasa、FUJIYOSHI Hironobu、TAMAKI Toru
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E106.D Pages: 391~400

    • DOI

      10.1587/transinf.2022EDP7138

    • Peer Reviewed / Open Access
  • [Journal Article] Temporal Cross-Attention for Action Recognition2023

    • Author(s)
      Hashiguchi Ryota、Tamaki Toru
    • Journal Title

      Computer Vision - ACCV 2022 Workshops

      Volume: 13848 Pages: 283~294

    • DOI

      10.1007/978-3-031-27066-6_20

    • Peer Reviewed / Open Access
  • [Journal Article] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022

    • Author(s)
      OMI Kazuki、KIMATA Jun、TAMAKI Toru
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E105.D Pages: 2119~2126

    • DOI

      10.1587/transinf.2022EDP7058

    • Peer Reviewed / Open Access
  • [Journal Article] Performance Evaluation of Action Recognition Models on Low Quality Videos2022

    • Author(s)
      Otani Aoi、Hashiguchi Ryota、Omi Kazuki、Fukushima Norishige、Tamaki Toru
    • Journal Title

      IEEE Access

      Volume: 10 Pages: 94898~94907

    • DOI

      10.1109/ACCESS.2022.3204755

    • Peer Reviewed / Open Access
  • [Journal Article] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

    • Author(s)
      Kimata Jun、Nitta Tomoya、Tamaki Toru
    • Journal Title

      MMAsia '22

      Volume: - Pages: 1-7

    • DOI

      10.1145/3551626.3564941

    • Peer Reviewed / Open Access
  • [Presentation] Temporal Cross-attention for Action Recognition2022

    • Author(s)
      Ryota Hashiguchi, Toru Tamaki
    • Organizer
      ACCV2022 Workshop on Vision Transformers: Theory and applications (VTTA-ACCV2022),
    • Int'l Joint Research
  • [Presentation] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

    • Author(s)
      Jun Kimata, Tomoya Nitta, Toru Tamaki
    • Organizer
      ACM MM Asia 2022
    • Int'l Joint Research
  • [Presentation] 動作認識の最前線:手法,タスク,データセット2022

    • Author(s)
      玉木徹
    • Organizer
      精密工学会 画像応用技術専門委員会(IAIP) 2022年度第4回定例研究会
    • Invited
  • [Presentation] ObjectMix:動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張2022

    • Author(s)
      木全潤, 仁田智也, 玉木 徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
  • [Presentation] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2022

    • Author(s)
      橋口凌大, 玉木 徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
  • [Presentation] Object-ABN:動作認識のためのシャープなアテンションマップ生成2022

    • Author(s)
      仁田智也, 平川翼, 藤吉弘亘, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
  • [Presentation] 動画像の画質劣化に対する動作認識モデルの評価2022

    • Author(s)
      大谷碧生, 大見一樹, 橋口凌大, 福嶋慶繁, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
  • [Presentation] 時空間アダプタを用いた動作認識のためのマルチドメイン学習2022

    • Author(s)
      大見一樹, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
  • [Presentation] インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識2022

    • Author(s)
      仁田智也, 平川翼, 藤吉弘亘, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会)
  • [Remarks] 動作認識の最前線:手法,タスク,データセット

    • URL

      https://www.slideshare.net/ttamaki/ss-254290005

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi