• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

動画像理解のための時空間情報設計の方法論構築

Research Project

Project/Area Number 22K12090
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionNagoya Institute of Technology

Principal Investigator

玉木 徹  名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywordsコンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング / 動画像理解 / 時空間特徴
Outline of Research at the Start

本研究の目的は,動画像理解のための時空間特徴量を取得する新しい方法論を構築することである.様々な動画像認識において空間的な情報と時間的な情報を,時空間情報としてひとまとめで扱う事が多いが,本研究が目指すのは,空間情報と時間情報を高いレベルで分離するというアプローチである.単に別々に特徴量を抽出するのではなく,様々な動画認識タスクに応用するために,時間と空間の情報を関連させつつ分離するために,所望の性質を満たす特徴量を設計するという枠組みを提案する.

Outline of Annual Research Achievements

本研究の目的は,動画像理解における時空間特徴量の取得方法について,新しい方法論を構築することである.通常の動画像認識では,空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である.しかし本研究では,空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは,単に別々に特徴量を抽出することが一般的だが,本研究では,時間と空間の情報を関連付けつつも分離するために,所望の性質を満たす特徴量を設計するというアプローチを取る.この手法は,様々な動画認識タスクに応用することが可能である.この新しい枠組みによって得られる特徴量は,例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る.また,時空間情報の分離により,動画像の解析や処理の効率性も向上することが期待される.さらに,この手法は将来的にはロボットや自動運転などの領域において,高度な環境理解や行動予測に役立つ可能性がある.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

引き続き,動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている.
様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し,どのようにマルチドメイン問題へ適用するかを検討した.その結果,複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため,引き続き実験を積み上げて成果として発表する.
動画像特徴量から映像を記述する動画像キャプショニング問題において,生成される説明文の長さを詳細に制御する方法を開発した.動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの,既存のキャプショニング手法では長さを調整することは難しい.本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった.
動画像中の動作部分を時空間的に検出する時空間動作検出において,人物を時空間特徴量であるクエリで表現し,アクション区間を3次元チューブとして出力する手法を開発した.またフレーム毎に人物特徴量をクエリで表現し,時間方向にクエリをマッチングする手法も開発した.これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり,これにより,動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった.これを応用して,セグメンテーションモデルを時間方向に拡張する方法も開発し,有効性を検証している.
動画像を扱う上で,オンラインでの処理は必須であるが,従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない.そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており,どのような学習方法が適しているのかについて有望な結果が得られている.

Strategy for Future Research Activity

前年度から引き続き,長時間の動画像を効率的に扱うことの重要性が明らかになってきたため,長時間動画像の取得,時間方向の特徴量表現の方法,フレーム毎の特徴量の時間方法への拡張,などを重点的に検討する.

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (33 results)

All 2024 2023 2022 Other

All Journal Article (9 results) (of which Peer Reviewed: 8 results,  Open Access: 7 results) Presentation (23 results) (of which Int'l Joint Research: 5 results,  Invited: 1 results) Remarks (1 results)

  • [Journal Article] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

    • Author(s)
      Sugiura Taiki、Tamaki Toru
    • Journal Title

      Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2 VISAPP: VISAPP

      Volume: - Pages: 71-79

    • DOI

      10.5220/0012310400003660

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

    • Author(s)
      Kodai Kamiya and Toru Tamaki
    • Journal Title

      Proceedings of The International Workshop on Frontiers of Computer Vision (IW-FCV2024)

      Volume: -

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Journal Article] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023

    • Author(s)
      NITTA Tomoya、HIRAKAWA Tsubasa、FUJIYOSHI Hironobu、TAMAKI Toru
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E106.D Issue: 3 Pages: 391-400

    • DOI

      10.1587/transinf.2022EDP7138

    • ISSN
      0916-8532, 1745-1361
    • Year and Date
      2023-03-01
    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023

    • Author(s)
      橋口凌大, 玉木徹
    • Journal Title

      画像ラボ

      Volume: 34 Pages: 9-16

    • Related Report
      2023 Research-status Report
  • [Journal Article] Joint learning of images and videos with a single Vision Transformer2023

    • Author(s)
      Shimizu Shuki、Tamaki Toru
    • Journal Title

      Proceedings of The 2023 18th International Conference on Machine Vision and Applications (MVA)

      Volume: - Pages: 1-6

    • DOI

      10.23919/mva57639.2023.10215661

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Temporal Cross-Attention for Action Recognition2023

    • Author(s)
      Hashiguchi Ryota、Tamaki Toru
    • Journal Title

      Computer Vision - ACCV 2022 Workshops

      Volume: 13848 Pages: 283-294

    • DOI

      10.1007/978-3-031-27066-6_20

    • ISBN
      9783031270659, 9783031270666
    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022

    • Author(s)
      OMI Kazuki、KIMATA Jun、TAMAKI Toru
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E105.D Issue: 12 Pages: 2119-2126

    • DOI

      10.1587/transinf.2022EDP7058

    • ISSN
      0916-8532, 1745-1361
    • Year and Date
      2022-12-01
    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Performance Evaluation of Action Recognition Models on Low Quality Videos2022

    • Author(s)
      Otani Aoi、Hashiguchi Ryota、Omi Kazuki、Fukushima Norishige、Tamaki Toru
    • Journal Title

      IEEE Access

      Volume: 10 Pages: 94898-94907

    • DOI

      10.1109/access.2022.3204755

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

    • Author(s)
      Kimata Jun、Nitta Tomoya、Tamaki Toru
    • Journal Title

      MMAsia '22

      Volume: - Pages: 1-7

    • DOI

      10.1145/3551626.3564941

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

    • Author(s)
      Kodai Kamiya and Toru Tamaki
    • Organizer
      The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

    • Author(s)
      Taiki Sugiura, Toru Tamaki
    • Organizer
      19th International Conference on Computer Vision Theory and Applications (VISAPP2024)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] Joint learning of images and videos with a single Vision Transformer2023

    • Author(s)
      Shuki Shimizu, Toru Tamaki
    • Organizer
      18th International Conference on Machine Vision Applications (MVA2023)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] キャプション生成を用いたzero-shot動作認識2023

    • Author(s)
      福沢匠, 細谷優, 玉木徹
    • Organizer
      画像の認識・理解シンポジウム2023(MIRU2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

    • Author(s)
      細谷優, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023

    • Author(s)
      神谷広大, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

    • Author(s)
      杉浦大輝, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] 単一モデルを用いた画像と動画の同時学習2023

    • Author(s)
      志水秀熙, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] マルチドメイン動作認識のための重み付け手法の実験的検討2023

    • Author(s)
      木全潤, 志水秀熙, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] 動作認識タスクにおけるラベルノイズの解析2023

    • Author(s)
      橋口凌大, 細谷優, 玉木徹
    • Organizer
      第29回画像センシングシンポジウム(SSII2023)
    • Related Report
      2023 Research-status Report
  • [Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

    • Author(s)
      細谷優, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会), 2023年5月研究会
    • Related Report
      2023 Research-status Report
  • [Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023

    • Author(s)
      神谷広大, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会), 2023年5月研究会
    • Related Report
      2023 Research-status Report
  • [Presentation] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

    • Author(s)
      杉浦大輝, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会), 2023年5月研究会
    • Related Report
      2023 Research-status Report
  • [Presentation] 単一モデルを用いた画像と動画の同時学習2023

    • Author(s)
      志水秀熙, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会), 2023年5月研究会
    • Related Report
      2023 Research-status Report
  • [Presentation] Temporal Cross-attention for Action Recognition2022

    • Author(s)
      Ryota Hashiguchi, Toru Tamaki
    • Organizer
      ACCV2022 Workshop on Vision Transformers: Theory and applications (VTTA-ACCV2022),
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

    • Author(s)
      Jun Kimata, Tomoya Nitta, Toru Tamaki
    • Organizer
      ACM MM Asia 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] 動作認識の最前線:手法,タスク,データセット2022

    • Author(s)
      玉木徹
    • Organizer
      精密工学会 画像応用技術専門委員会(IAIP) 2022年度第4回定例研究会
    • Related Report
      2022 Research-status Report
    • Invited
  • [Presentation] ObjectMix:動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張2022

    • Author(s)
      木全潤, 仁田智也, 玉木 徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2022

    • Author(s)
      橋口凌大, 玉木 徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] Object-ABN:動作認識のためのシャープなアテンションマップ生成2022

    • Author(s)
      仁田智也, 平川翼, 藤吉弘亘, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] 動画像の画質劣化に対する動作認識モデルの評価2022

    • Author(s)
      大谷碧生, 大見一樹, 橋口凌大, 福嶋慶繁, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] 時空間アダプタを用いた動作認識のためのマルチドメイン学習2022

    • Author(s)
      大見一樹, 玉木徹
    • Organizer
      第28回画像センシングシンポジウム(SSII2022)
    • Related Report
      2022 Research-status Report
  • [Presentation] インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識2022

    • Author(s)
      仁田智也, 平川翼, 藤吉弘亘, 玉木徹
    • Organizer
      情報処理学会コンピュータビジョンとイメージメディア研究会(CVIM研究会)
    • Related Report
      2022 Research-status Report
  • [Remarks] 動作認識の最前線:手法,タスク,データセット

    • URL

      https://www.slideshare.net/ttamaki/ss-254290005

    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi