2022 年度実施状況報告書

動画像理解のための時空間情報設計の方法論構築

研究課題

研究課題/領域番号	22K12090
研究機関	名古屋工業大学
研究代表者	玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング
研究実績の概要	本研究の目的は，動画像理解における時空間特徴量の取得方法について，新しい方法論を構築することである．通常の動画像認識では，空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である．しかし本研究では，空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む．従来のアプローチでは，単に別々に特徴量を抽出することが一般的だが，本研究では，時間と空間の情報を関連付けつつも分離するために，所望の性質を満たす特徴量を設計するというアプローチを取る．この手法は，様々な動画認識タスクに応用することが可能である．この新しい枠組みによって得られる特徴量は，例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る．また，時空間情報の分離により，動画像の解析や処理の効率性も向上することが期待される．さらに，この手法は将来的にはロボットや自動運転などの領域において，高度な環境理解や行動予測に役立つ可能性がある．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由現在，動作認識のさまざまな側面に焦点を当てて研究を進めている．様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタを導入する手法を開発した．現在，アダプタの再設計および複数のドメインに対する損失の動的な重み付け手法をマルチタスク学習の分野から導入する実験を進めており，有望な結果が得られている．画質劣化による情報の欠損やノイズに対しても頑健な動作認識を実現するため，さまざまな画質劣化を適用した低品質な動画像に対してモデルがどの程度正確に動作認識が可能かを評価する実験を行った．これにより，画質劣化が性能にどのような影響を与えるのかが定量的に評価できるようになったため，今後は特徴量に対してどの程度影響を与えるのかの調査が必要である．アテンション機構を用いて，動作認識のために動画像内の重要な領域に注目するためのシャープなアテンションマップの生成手法を開発した．これにより，動作認識のために重要となる領域の評価が可能になったため，動作認識の重要度と特徴量との関係性を調査が可能になると考えている．効率的かつ効果的な動画像認識のために，動画像を3Dとして処理するのではなく，フレーム毎に処理した結果を統合して，特徴量のシフト操作を用いた新しい動画像認識手法を考案した．これにより，長い動画像に対しても効率的に処理を行う方向性が開けた．物体領域のコピー・ペーストを利用する，動作認識のためのデータ拡張にも取り組んだ．これにより，さまざまな人物動作や背景に対しても頑健な動作認識モデルが得られ，現実のシーン内の様々な変動による性能低下を抑えることが期待される．現在，さらなるデータ拡張の方法とその有効性を評価するための実験を行っている．
今後の研究の推進方策	動作認識の様々な側面についてのこれまでの研究を更に発展させる．今年度に考案した動作認識手法とその結果から，どのような場合に効果的な特徴量となるのかについての知見が少しずつ得られている．今後は時間的および空間的な特徴にどのように影響を与えるのかを評価しながら研究を進める．また長時間の動画像を効率的に扱うことの重要性が明らかとなったため，効率的な開発を実現するために，どのように動画像を扱えばよいかについての検討も行う．

研究成果
(15件)

すべて 2023 2022 その他

すべて雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 5件) 学会発表 (9件) (うち国際学会 2件、招待講演 1件) 備考 (1件)

[雑誌論文] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023
- 著者名/発表者名
  NITTA Tomoya、HIRAKAWA Tsubasa、FUJIYOSHI Hironobu、TAMAKI Toru
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E106.D ページ: 391～400
- DOI
  10.1587/transinf.2022EDP7138
- 査読あり / オープンアクセス
[雑誌論文] Temporal Cross-Attention for Action Recognition2023
- 著者名/発表者名
  Hashiguchi Ryota、Tamaki Toru
- 雑誌名
  
  Computer Vision - ACCV 2022 Workshops
  
  巻: 13848 ページ: 283～294
- DOI
  10.1007/978-3-031-27066-6_20
- 査読あり / オープンアクセス
[雑誌論文] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022
- 著者名/発表者名
  OMI Kazuki、KIMATA Jun、TAMAKI Toru
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E105.D ページ: 2119～2126
- DOI
  10.1587/transinf.2022EDP7058
- 査読あり / オープンアクセス
[雑誌論文] Performance Evaluation of Action Recognition Models on Low Quality Videos2022
- 著者名/発表者名
  Otani Aoi、Hashiguchi Ryota、Omi Kazuki、Fukushima Norishige、Tamaki Toru
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 94898～94907
- DOI
  10.1109/ACCESS.2022.3204755
- 査読あり / オープンアクセス
[雑誌論文] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022
- 著者名/発表者名
  Kimata Jun、Nitta Tomoya、Tamaki Toru
- 雑誌名
  
  MMAsia '22
  
  巻: - ページ: 1-7
- DOI
  10.1145/3551626.3564941
- 査読あり / オープンアクセス
[学会発表] Temporal Cross-attention for Action Recognition2022
- 著者名/発表者名
  Ryota Hashiguchi, Toru Tamaki
- 学会等名
  ACCV2022 Workshop on Vision Transformers: Theory and applications (VTTA-ACCV2022),
- 国際学会
[学会発表] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022
- 著者名/発表者名
  Jun Kimata, Tomoya Nitta, Toru Tamaki
- 学会等名
  ACM MM Asia 2022
- 国際学会
[学会発表] 動作認識の最前線：手法，タスク，データセット2022
- 著者名/発表者名
  玉木徹
- 学会等名
  精密工学会画像応用技術専門委員会(IAIP) 2022年度第4回定例研究会
- 招待講演
[学会発表] ObjectMix：動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張2022
- 著者名/発表者名
  木全潤, 仁田智也, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
[学会発表] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2022
- 著者名/発表者名
  橋口凌大, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
[学会発表] Object-ABN：動作認識のためのシャープなアテンションマップ生成2022
- 著者名/発表者名
  仁田智也, 平川翼, 藤吉弘亘, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
[学会発表] 動画像の画質劣化に対する動作認識モデルの評価2022
- 著者名/発表者名
  大谷碧生, 大見一樹, 橋口凌大, 福嶋慶繁, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
[学会発表] 時空間アダプタを用いた動作認識のためのマルチドメイン学習2022
- 著者名/発表者名
  大見一樹, 玉木徹
- 学会等名
  第28回画像センシングシンポジウム(SSII2022)
[学会発表] インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識2022
- 著者名/発表者名
  仁田智也, 平川翼, 藤吉弘亘, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）
[備考] 動作認識の最前線：手法，タスク，データセット
- URL
  https://www.slideshare.net/ttamaki/ss-254290005

2022 年度 実施状況報告書

動画像理解のための時空間情報設計の方法論構築

研究代表者

玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Temporal Cross-Attention for Action Recognition2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Model-Agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Performance Evaluation of Action Recognition Models on Low Quality Videos2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

著者名/発表者名

雑誌名

DOI

[学会発表] Temporal Cross-attention for Action Recognition2022

著者名/発表者名

学会等名

[学会発表] ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition2022

著者名/発表者名

学会等名

[学会発表] 動作認識の最前線：手法，タスク，データセット2022

著者名/発表者名

学会等名

[学会発表] ObjectMix：動画像中の物体のコピー・ペーストによる動作認識のためのデータ拡張2022

著者名/発表者名

学会等名

[学会発表] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2022

著者名/発表者名

学会等名

[学会発表] Object-ABN：動作認識のためのシャープなアテンションマップ生成2022

著者名/発表者名

学会等名

[学会発表] 動画像の画質劣化に対する動作認識モデルの評価2022

著者名/発表者名

学会等名

[学会発表] 時空間アダプタを用いた動作認識のためのマルチドメイン学習2022

著者名/発表者名

学会等名

[学会発表] インスタンスセグメンテーションを用いたシャープなアテンションマップ生成による動作認識2022

著者名/発表者名

学会等名

[備考] 動作認識の最前線：手法，タスク，データセット

URL

2022 年度実施状況報告書

玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)