動画像理解のための時空間情報設計の方法論構築

研究課題

研究課題/領域番号	22K12090
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	名古屋工業大学
研究代表者	玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング / 動画像理解 / 時空間特徴
研究開始時の研究の概要	本研究の目的は，動画像理解のための時空間特徴量を取得する新しい方法論を構築することである．様々な動画像認識において空間的な情報と時間的な情報を，時空間情報としてひとまとめで扱う事が多いが，本研究が目指すのは，空間情報と時間情報を高いレベルで分離するというアプローチである．単に別々に特徴量を抽出するのではなく，様々な動画認識タスクに応用するために，時間と空間の情報を関連させつつ分離するために，所望の性質を満たす特徴量を設計するという枠組みを提案する．
研究実績の概要	本研究の目的は，動画像理解における時空間特徴量の取得方法について，新しい方法論を構築することである．通常の動画像認識では，空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である．しかし本研究では，空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは，単に別々に特徴量を抽出することが一般的だが，本研究では，時間と空間の情報を関連付けつつも分離するために，所望の性質を満たす特徴量を設計するというアプローチを取る．この手法は，様々な動画認識タスクに応用することが可能である．この新しい枠組みによって得られる特徴量は，例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る．また，時空間情報の分離により，動画像の解析や処理の効率性も向上することが期待される．さらに，この手法は将来的にはロボットや自動運転などの領域において，高度な環境理解や行動予測に役立つ可能性がある．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由引き続き，動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている．様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し，どのようにマルチドメイン問題へ適用するかを検討した．その結果，複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため，引き続き実験を積み上げて成果として発表する．動画像特徴量から映像を記述する動画像キャプショニング問題において，生成される説明文の長さを詳細に制御する方法を開発した．動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの，既存のキャプショニング手法では長さを調整することは難しい．本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった．動画像中の動作部分を時空間的に検出する時空間動作検出において，人物を時空間特徴量であるクエリで表現し，アクション区間を3次元チューブとして出力する手法を開発した．またフレーム毎に人物特徴量をクエリで表現し，時間方向にクエリをマッチングする手法も開発した．これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり，これにより，動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった．これを応用して，セグメンテーションモデルを時間方向に拡張する方法も開発し，有効性を検証している．動画像を扱う上で，オンラインでの処理は必須であるが，従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない．そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており，どのような学習方法が適しているのかについて有望な結果が得られている．
今後の研究の推進方策	前年度から引き続き，長時間の動画像を効率的に扱うことの重要性が明らかになってきたため，長時間動画像の取得，時間方向の特徴量表現の方法，フレーム毎の特徴量の時間方法への拡張，などを重点的に検討する．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(33件)

すべて 2024 2023 2022 その他

すべて雑誌論文 (9件) (うち査読あり 8件、オープンアクセス 7件) 学会発表 (23件) (うち国際学会 5件、招待講演 1件) 備考 (1件)

[雑誌論文] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- 著者名/発表者名
  Sugiura Taiki、Tamaki Toru
- 雑誌名
  
  Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2 VISAPP: VISAPP
  
  巻: - ページ: 71-79
- DOI
  10.5220/0012310400003660
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- 著者名/発表者名
  Kodai Kamiya and Toru Tamaki
- 雑誌名
  
  Proceedings of The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023
- 著者名/発表者名
  NITTA Tomoya、HIRAKAWA Tsubasa、FUJIYOSHI Hironobu、TAMAKI Toru
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E106.D 号: 3 ページ: 391-400
- DOI
  10.1587/transinf.2022EDP7138
- ISSN
  0916-8532, 1745-1361
- 年月日
  2023-03-01
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023
- 著者名/発表者名
  橋口凌大, 玉木徹
- 雑誌名
  
  画像ラボ
  
  巻: 34 ページ: 9-16
- 関連する報告書
  2023 実施状況報告書
[雑誌論文] Joint learning of images and videos with a single Vision Transformer2023
- 著者名/発表者名
  Shimizu Shuki、Tamaki Toru
- 雑誌名
  
  Proceedings of The 2023 18th International Conference on Machine Vision and Applications (MVA)
  
  巻: - ページ: 1-6
- DOI
  10.23919/mva57639.2023.10215661
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Temporal Cross-Attention for Action Recognition2023
- 著者名/発表者名
  Hashiguchi Ryota、Tamaki Toru
- 雑誌名
  
  Computer Vision - ACCV 2022 Workshops
  
  巻: 13848 ページ: 283-294
- DOI
  10.1007/978-3-031-27066-6_20
- ISBN
  9783031270659, 9783031270666
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022
- 著者名/発表者名
  OMI Kazuki、KIMATA Jun、TAMAKI Toru
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E105.D 号: 12 ページ: 2119-2126
- DOI
  10.1587/transinf.2022EDP7058
- ISSN
  0916-8532, 1745-1361
- 年月日
  2022-12-01
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Performance Evaluation of Action Recognition Models on Low Quality Videos2022
- 著者名/発表者名
  Otani Aoi、Hashiguchi Ryota、Omi Kazuki、Fukushima Norishige、Tamaki Toru
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 94898-94907
- DOI
  10.1109/access.2022.3204755
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022
- 著者名/発表者名
  Kimata Jun、Nitta Tomoya、Tamaki Toru
- 雑誌名
  
  MMAsia '22
  
  巻: - ページ: 1-7
- DOI
  10.1145/3551626.3564941
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- 著者名/発表者名
  Kodai Kamiya and Toru Tamaki
- 学会等名
  The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- 著者名/発表者名
  Taiki Sugiura, Toru Tamaki
- 学会等名
  19th International Conference on Computer Vision Theory and Applications (VISAPP2024)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Joint learning of images and videos with a single Vision Transformer2023
- 著者名/発表者名
  Shuki Shimizu, Toru Tamaki
- 学会等名
  18th International Conference on Machine Vision Applications (MVA2023)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] キャプション生成を用いたzero-shot動作認識2023
- 著者名/発表者名
  福沢匠, 細谷優, 玉木徹
- 学会等名
  画像の認識・理解シンポジウム2023（MIRU2023）
- 関連する報告書
  2023 実施状況報告書
[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- 著者名/発表者名
  細谷優, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023
- 著者名/発表者名
  神谷広大, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- 著者名/発表者名
  杉浦大輝, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 単一モデルを用いた画像と動画の同時学習2023
- 著者名/発表者名
  志水秀熙, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] マルチドメイン動作認識のための重み付け手法の実験的検討2023
- 著者名/発表者名
  木全潤, 志水秀熙, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 動作認識タスクにおけるラベルノイズの解析2023
- 著者名/発表者名
  橋口凌大, 細谷優, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- 著者名/発表者名
  細谷優, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023
- 著者名/発表者名
  神谷広大, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- 著者名/発表者名
  杉浦大輝, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 単一モデルを用いた画像と動画の同時学習2023
- 著者名/発表者名
  志水秀熙, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Temporal Cross-attention for Action Recognition2022
- 著者名/発表者名
  Ryota Hashiguchi, Toru Tamaki
- 学会等名
  ACCV2022 Workshop on Vision Transformers: Theory and applications (VTTA-ACCV2022),
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022
- 著者名/発表者名
  Jun Kimata, Tomoya Nitta, Toru Tamaki
- 学会等名
  ACM MM Asia 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 動作認識の最前線：手法，タスク，データセット2022
- 著者名/発表者名
  玉木徹
- 学会等名
  精密工学会画像応用技術専門委員会(IAIP) 2022年度第4回定例研究会
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] ObjectMix：動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張2022
- 著者名/発表者名
  木全潤, 仁田智也, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2022
- 著者名/発表者名
  橋口凌大, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] Object-ABN：動作認識のためのシャープなアテンションマップ生成2022
- 著者名/発表者名
  仁田智也, 平川翼, 藤吉弘亘, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] 動画像の画質劣化に対する動作認識モデルの評価2022
- 著者名/発表者名
  大谷碧生, 大見一樹, 橋口凌大, 福嶋慶繁, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] 時空間アダプタを用いた動作認識のためのマルチドメイン学習2022
- 著者名/発表者名
  大見一樹, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識2022
- 著者名/発表者名
  仁田智也, 平川翼, 藤吉弘亘, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）
- 関連する報告書
  2022 実施状況報告書
[備考] 動作認識の最前線：手法，タスク，データセット
- URL
  https://www.slideshare.net/ttamaki/ss-254290005
- 関連する報告書
  2022 実施状況報告書

動画像理解のための時空間情報設計の方法論構築

研究代表者

玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Joint learning of images and videos with a single Vision Transformer2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Temporal Cross-Attention for Action Recognition2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Performance Evaluation of Action Recognition Models on Low Quality Videos2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Joint learning of images and videos with a single Vision Transformer2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] キャプション生成を用いたzero-shot動作認識2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023

著者名/発表者名

学会等名

関連する報告書

玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023

[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023