Project/Area Number |
22K12090
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング / 動画像理解 / 時空間特徴 |
Outline of Research at the Start |
本研究の目的は,動画像理解のための時空間特徴量を取得する新しい方法論を構築することである.様々な動画像認識において空間的な情報と時間的な情報を,時空間情報としてひとまとめで扱う事が多いが,本研究が目指すのは,空間情報と時間情報を高いレベルで分離するというアプローチである.単に別々に特徴量を抽出するのではなく,様々な動画認識タスクに応用するために,時間と空間の情報を関連させつつ分離するために,所望の性質を満たす特徴量を設計するという枠組みを提案する.
|
Outline of Annual Research Achievements |
本研究の目的は,動画像理解における時空間特徴量の取得方法について,新しい方法論を構築することである.通常の動画像認識では,空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である.しかし本研究では,空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは,単に別々に特徴量を抽出することが一般的だが,本研究では,時間と空間の情報を関連付けつつも分離するために,所望の性質を満たす特徴量を設計するというアプローチを取る.この手法は,様々な動画認識タスクに応用することが可能である.この新しい枠組みによって得られる特徴量は,例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る.また,時空間情報の分離により,動画像の解析や処理の効率性も向上することが期待される.さらに,この手法は将来的にはロボットや自動運転などの領域において,高度な環境理解や行動予測に役立つ可能性がある.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
引き続き,動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている. 様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し,どのようにマルチドメイン問題へ適用するかを検討した.その結果,複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため,引き続き実験を積み上げて成果として発表する. 動画像特徴量から映像を記述する動画像キャプショニング問題において,生成される説明文の長さを詳細に制御する方法を開発した.動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの,既存のキャプショニング手法では長さを調整することは難しい.本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった. 動画像中の動作部分を時空間的に検出する時空間動作検出において,人物を時空間特徴量であるクエリで表現し,アクション区間を3次元チューブとして出力する手法を開発した.またフレーム毎に人物特徴量をクエリで表現し,時間方向にクエリをマッチングする手法も開発した.これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり,これにより,動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった.これを応用して,セグメンテーションモデルを時間方向に拡張する方法も開発し,有効性を検証している. 動画像を扱う上で,オンラインでの処理は必須であるが,従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない.そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており,どのような学習方法が適しているのかについて有望な結果が得られている.
|
Strategy for Future Research Activity |
前年度から引き続き,長時間の動画像を効率的に扱うことの重要性が明らかになってきたため,長時間動画像の取得,時間方向の特徴量表現の方法,フレーム毎の特徴量の時間方法への拡張,などを重点的に検討する.
|
Report
(2 results)
Research Products
(33 results)