2023 年度実施状況報告書

動画像理解のための時空間情報設計の方法論構築

研究課題

研究課題/領域番号	22K12090
研究機関	名古屋工業大学
研究代表者	玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング
研究実績の概要	本研究の目的は，動画像理解における時空間特徴量の取得方法について，新しい方法論を構築することである．通常の動画像認識では，空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である．しかし本研究では，空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは，単に別々に特徴量を抽出することが一般的だが，本研究では，時間と空間の情報を関連付けつつも分離するために，所望の性質を満たす特徴量を設計するというアプローチを取る．この手法は，様々な動画認識タスクに応用することが可能である．この新しい枠組みによって得られる特徴量は，例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る．また，時空間情報の分離により，動画像の解析や処理の効率性も向上することが期待される．さらに，この手法は将来的にはロボットや自動運転などの領域において，高度な環境理解や行動予測に役立つ可能性がある．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由引き続き，動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている．様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し，どのようにマルチドメイン問題へ適用するかを検討した．その結果，複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため，引き続き実験を積み上げて成果として発表する．動画像特徴量から映像を記述する動画像キャプショニング問題において，生成される説明文の長さを詳細に制御する方法を開発した．動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの，既存のキャプショニング手法では長さを調整することは難しい．本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった．動画像中の動作部分を時空間的に検出する時空間動作検出において，人物を時空間特徴量であるクエリで表現し，アクション区間を3次元チューブとして出力する手法を開発した．またフレーム毎に人物特徴量をクエリで表現し，時間方向にクエリをマッチングする手法も開発した．これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり，これにより，動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった．これを応用して，セグメンテーションモデルを時間方向に拡張する方法も開発し，有効性を検証している．動画像を扱う上で，オンラインでの処理は必須であるが，従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない．そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており，どのような学習方法が適しているのかについて有望な結果が得られている．
今後の研究の推進方策	前年度から引き続き，長時間の動画像を効率的に扱うことの重要性が明らかになってきたため，長時間動画像の取得，時間方向の特徴量表現の方法，フレーム毎の特徴量の時間方法への拡張，などを重点的に検討する．
次年度使用額が生じた理由	近年の円高および航空券費用高騰のため，研究成果を国際学会で発表するための旅費を多めに見積もったため，2万円程度の残額が生じた．これは次年度でも研究成果発表のための旅費および参加費として使用する．

研究成果
(18件)

すべて 2024 2023

すべて雑誌論文 (4件) (うち査読あり 3件、オープンアクセス 2件) 学会発表 (14件) (うち国際学会 3件)

[雑誌論文] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- 著者名/発表者名
  Sugiura Taiki、Tamaki Toru
- 雑誌名
  
  Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2 VISAPP: VISAPP
  
  巻: - ページ: 71-79
- DOI
  10.5220/0012310400003660
- 査読あり / オープンアクセス
[雑誌論文] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- 著者名/発表者名
  Kodai Kamiya and Toru Tamaki
- 雑誌名
  
  Proceedings of The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
  
  巻: - ページ: -
- 査読あり
[雑誌論文] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023
- 著者名/発表者名
  橋口凌大, 玉木徹
- 雑誌名
  
  画像ラボ
  
  巻: 34 ページ: 9-16
[雑誌論文] Joint learning of images and videos with a single Vision Transformer2023
- 著者名/発表者名
  Shimizu Shuki、Tamaki Toru
- 雑誌名
  
  Proceedings of The 2023 18th International Conference on Machine Vision and Applications (MVA)
  
  巻: - ページ: -
- DOI
  10.23919/MVA57639.2023.10215661
- 査読あり / オープンアクセス
[学会発表] Multi-model learning by sequential reading of untrimmed videos for action recognition2024
- 著者名/発表者名
  Kodai Kamiya and Toru Tamaki
- 学会等名
  The International Workshop on Frontiers of Computer Vision (IW-FCV2024)
- 国際学会
[学会発表] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024
- 著者名/発表者名
  Taiki Sugiura, Toru Tamaki
- 学会等名
  19th International Conference on Computer Vision Theory and Applications (VISAPP2024)
- 国際学会
[学会発表] Joint learning of images and videos with a single Vision Transformer2023
- 著者名/発表者名
  Shuki Shimizu, Toru Tamaki
- 学会等名
  18th International Conference on Machine Vision Applications (MVA2023)
- 国際学会
[学会発表] キャプション生成を用いたzero-shot動作認識2023
- 著者名/発表者名
  福沢匠, 細谷優, 玉木徹
- 学会等名
  画像の認識・理解シンポジウム2023（MIRU2023）
[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- 著者名/発表者名
  細谷優, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023
- 著者名/発表者名
  神谷広大, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- 著者名/発表者名
  杉浦大輝, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] 単一モデルを用いた画像と動画の同時学習2023
- 著者名/発表者名
  志水秀熙, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] マルチドメイン動作認識のための重み付け手法の実験的検討2023
- 著者名/発表者名
  木全潤, 志水秀熙, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] 動作認識タスクにおけるラベルノイズの解析2023
- 著者名/発表者名
  橋口凌大, 細谷優, 玉木徹
- 学会等名
  第29回画像センシングシンポジウム(SSII2023)
[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023
- 著者名/発表者名
  細谷優, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023
- 著者名/発表者名
  神谷広大, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023
- 著者名/発表者名
  杉浦大輝, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会
[学会発表] 単一モデルを用いた画像と動画の同時学習2023
- 著者名/発表者名
  志水秀熙, 玉木徹
- 学会等名
  情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM研究会）, 2023年5月研究会

2023 年度 実施状況報告書

動画像理解のための時空間情報設計の方法論構築

研究代表者

玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

著者名/発表者名

雑誌名

[雑誌論文] 効率的な動作認識のためのシフトによる時間的な相互アテンションを用いたVision Transformer2023

著者名/発表者名

雑誌名

[雑誌論文] Joint learning of images and videos with a single Vision Transformer2023

著者名/発表者名

雑誌名

DOI

[学会発表] Multi-model learning by sequential reading of untrimmed videos for action recognition2024

著者名/発表者名

学会等名

[学会発表] S3Aug: Segmentation, Sampling, and Shift for Action Recognition2024

著者名/発表者名

学会等名

[学会発表] Joint learning of images and videos with a single Vision Transformer2023

著者名/発表者名

学会等名

[学会発表] キャプション生成を用いたzero-shot動作認識2023

著者名/発表者名

学会等名

[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

著者名/発表者名

学会等名

[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023

著者名/発表者名

学会等名

[学会発表] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

著者名/発表者名

学会等名

[学会発表] 単一モデルを用いた画像と動画の同時学習2023

著者名/発表者名

学会等名

[学会発表] マルチドメイン動作認識のための重み付け手法の実験的検討2023

著者名/発表者名

学会等名

[学会発表] 動作認識タスクにおけるラベルノイズの解析2023

著者名/発表者名

学会等名

[学会発表] 動作内容を表すカテゴリ文を用いた zero-shot 動作認識2023

著者名/発表者名

学会等名

[学会発表] 逐次読み込みによる動作認識のための複数モデル学習2023

著者名/発表者名

学会等名

[学会発表] セグメンテーションと画像生成を用いた 動作認識のためのデータ拡張2023

著者名/発表者名

学会等名

[学会発表] 単一モデルを用いた画像と動画の同時学習2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

玉木徹名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)

[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023

[学会発表] セグメンテーションと画像生成を用いた動作認識のためのデータ拡張2023