2023 Fiscal Year Research-status Report

動画像理解のための時空間情報設計の方法論構築

Research Project

Project/Area Number	22K12090
Research Institution	Nagoya Institute of Technology
Principal Investigator	玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング
Outline of Annual Research Achievements	本研究の目的は，動画像理解における時空間特徴量の取得方法について，新しい方法論を構築することである．通常の動画像認識では，空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である．しかし本研究では，空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは，単に別々に特徴量を抽出することが一般的だが，本研究では，時間と空間の情報を関連付けつつも分離するために，所望の性質を満たす特徴量を設計するというアプローチを取る．この手法は，様々な動画認識タスクに応用することが可能である．この新しい枠組みによって得られる特徴量は，例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る．また，時空間情報の分離により，動画像の解析や処理の効率性も向上することが期待される．さらに，この手法は将来的にはロボットや自動運転などの領域において，高度な環境理解や行動予測に役立つ可能性がある．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 引き続き，動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている．様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し，どのようにマルチドメイン問題へ適用するかを検討した．その結果，複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため，引き続き実験を積み上げて成果として発表する．動画像特徴量から映像を記述する動画像キャプショニング問題において，生成される説明文の長さを詳細に制御する方法を開発した．動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの，既存のキャプショニング手法では長さを調整することは難しい．本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった．動画像中の動作部分を時空間的に検出する時空間動作検出において，人物を時空間特徴量であるクエリで表現し，アクション区間を3次元チューブとして出力する手法を開発した．またフレーム毎に人物特徴量をクエリで表現し，時間方向にクエリをマッチングする手法も開発した．これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり，これにより，動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった．これを応用して，セグメンテーションモデルを時間方向に拡張する方法も開発し，有効性を検証している．動画像を扱う上で，オンラインでの処理は必須であるが，従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない．そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており，どのような学習方法が適しているのかについて有望な結果が得られている．
Strategy for Future Research Activity	前年度から引き続き，長時間の動画像を効率的に扱うことの重要性が明らかになってきたため，長時間動画像の取得，時間方向の特徴量表現の方法，フレーム毎の特徴量の時間方法への拡張，などを重点的に検討する．
Causes of Carryover	近年の円高および航空券費用高騰のため，研究成果を国際学会で発表するための旅費を多めに見積もったため，2万円程度の残額が生じた．これは次年度でも研究成果発表のための旅費および参加費として使用する．

Research Products
(18 results)

All 2024 2023

All Journal Article (4 results) (of which Peer Reviewed: 3 results, Open Access: 2 results) Presentation (14 results) (of which Int'l Joint Research: 3 results)

[Journal Article] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- Author(s)
  Sugiura Taiki、Tamaki Toru
- Journal Title
  
  Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2 VISAPP: VISAPP
  
  Volume: - Pages: 71-79
- DOI
  10.5220/0012310400003660
- Peer Reviewed / Open Access
[Journal Article] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- Author(s)
  Kodai Kamiya and Toru Tamaki
- Journal Title
  
  Proceedings of The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023
- Author(s)
  橋口凌大, 玉木徹
- Journal Title
  
  画像ラボ
  
  Volume: 34 Pages: 9-16
[Journal Article] Joint learning of images and videos with a single Vision Transformer2023
- Author(s)
  Shimizu Shuki、Tamaki Toru
- Journal Title
  
  Proceedings of The 2023 18th International Conference on Machine Vision and Applications (MVA)
  
  Volume: - Pages: -
- DOI
  10.23919/MVA57639.2023.10215661
- Peer Reviewed / Open Access
[Presentation] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- Author(s)
  Kodai Kamiya and Toru Tamaki
- Organizer
  The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
- Int'l Joint Research
[Presentation] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- Author(s)
  Taiki Sugiura, Toru Tamaki
- Organizer
  19th International Conference on Computer Vision Theory and Applications (VISAPP2024)
- Int'l Joint Research
[Presentation] Joint learning of images and videos with a single Vision Transformer2023
- Author(s)
  Shuki Shimizu, Toru Tamaki
- Organizer
  18th International Conference on Machine Vision Applications (MVA2023)
- Int'l Joint Research
[Presentation] キャプション生成を用いたzero-shot動作認識2023
- Author(s)
  福沢匠, 細谷優, 玉木徹
- Organizer
  画像の認識・理解シンポジウム2023（MIRU2023）
[Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- Author(s)
  細谷優, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023
- Author(s)
  神谷広大, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- Author(s)
  杉浦大輝, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] 単一モデルを用いた画像と動画の同時学習2023
- Author(s)
  志水秀熙, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] マルチドメイン動作認識のための重み付け手法の実験的検討2023
- Author(s)
  木全潤, 志水秀熙, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] 動作認識タスクにおけるラベルノイズの解析2023
- Author(s)
  橋口凌大, 細谷優, 玉木徹
- Organizer
  第29回画像センシングシンポジウム(SSII2023)
[Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- Author(s)
  細谷優, 玉木徹
- Organizer
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023
- Author(s)
  神谷広大, 玉木徹
- Organizer
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[Presentation] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- Author(s)
  杉浦大輝, 玉木徹
- Organizer
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[Presentation] 単一モデルを用いた画像と動画の同時学習2023
- Author(s)
  志水秀熙, 玉木徹
- Organizer
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会

2023 Fiscal Year Research-status Report

動画像理解のための時空間情報設計の方法論構築

Principal Investigator

玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

Current Status of Research Progress

Reason

Research Products

[Journal Article] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

Author(s)

Journal Title

DOI

[Journal Article] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

Author(s)

Journal Title

[Journal Article] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023

Author(s)

Journal Title

[Journal Article] Joint learning of images and videos with a single Vision Transformer2023

Author(s)

Journal Title

DOI

[Presentation] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

Author(s)

Organizer

[Presentation] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

Author(s)

Organizer

[Presentation] Joint learning of images and videos with a single Vision Transformer2023

Author(s)

Organizer

[Presentation] キャプション生成を用いたzero-shot動作認識2023

Author(s)

Organizer

[Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

Author(s)

Organizer

[Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023

Author(s)

Organizer

[Presentation] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

Author(s)

Organizer

[Presentation] 単一モデルを用いた画像と動画の同時学習2023

Author(s)

Organizer

[Presentation] マルチドメイン動作認識のための重み付け手法の実験的検討2023

Author(s)

Organizer

[Presentation] 動作認識タスクにおけるラベルノイズの解析2023

Author(s)

Organizer

[Presentation] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

Author(s)

Organizer

[Presentation] 逐次読み込みによる動作認識のための複数モデル学習2023

Author(s)

Organizer

[Presentation] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

Author(s)

Organizer

[Presentation] 単一モデルを用いた画像と動画の同時学習2023

Author(s)

Organizer

玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

[Presentation] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023

[Presentation] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023