研究課題/領域番号 |
22K12090
|
研究機関 | 名古屋工業大学 |
研究代表者 |
玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング |
研究実績の概要 |
本研究の目的は,動画像理解における時空間特徴量の取得方法について,新しい方法論を構築することである.通常の動画像認識では,空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である.しかし本研究では,空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む. 従来のアプローチでは,単に別々に特徴量を抽出することが一般的だが,本研究では,時間と空間の情報を関連付けつつも分離するために,所望の性質を満たす特徴量を設計するというアプローチを取る.この手法は,様々な動画認識タスクに応用することが可能である.この新しい枠組みによって得られる特徴量は,例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る.また,時空間情報の分離により,動画像の解析や処理の効率性も向上することが期待される.さらに,この手法は将来的にはロボットや自動運転などの領域において,高度な環境理解や行動予測に役立つ可能性がある.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
引き続き,動作認識と動画像理解ための特徴量について様々な側面に焦点をあてて研究を進めている. 様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタとしてLoRAを導入し,どのようにマルチドメイン問題へ適用するかを検討した.その結果,複数のドメインのデータセットに対してそれぞれ事前学習を行うことが効果的であることが判明したため,引き続き実験を積み上げて成果として発表する. 動画像特徴量から映像を記述する動画像キャプショニング問題において,生成される説明文の長さを詳細に制御する方法を開発した.動画像キャプショニングにおいて動画像の長さに合わせた説明文を生成することは重要であるものの,既存のキャプショニング手法では長さを調整することは難しい.本研究ではシンプルな埋め込みを用いて説明文長の詳細な制御が可能となった. 動画像中の動作部分を時空間的に検出する時空間動作検出において,人物を時空間特徴量であるクエリで表現し,アクション区間を3次元チューブとして出力する手法を開発した.またフレーム毎に人物特徴量をクエリで表現し,時間方向にクエリをマッチングする手法も開発した.これは前年から引き続き研究しているフレーム毎の処理を時間方向へ拡張する手法をさらに推し進めるものであり,これにより,動作の特徴量を空間方向と時間方向で統一的に表現することが可能になった.これを応用して,セグメンテーションモデルを時間方向に拡張する方法も開発し,有効性を検証している. 動画像を扱う上で,オンラインでの処理は必須であるが,従来の動画像モデルは短い動画像ファイルしか扱うことを考慮していない.そこで事前学習において動画像をオンラインで学習する様々な手法を検討し実験を進めており,どのような学習方法が適しているのかについて有望な結果が得られている.
|
今後の研究の推進方策 |
前年度から引き続き,長時間の動画像を効率的に扱うことの重要性が明らかになってきたため,長時間動画像の取得,時間方向の特徴量表現の方法,フレーム毎の特徴量の時間方法への拡張,などを重点的に検討する.
|
次年度使用額が生じた理由 |
近年の円高および航空券費用高騰のため,研究成果を国際学会で発表するための旅費を多めに見積もったため,2万円程度の残額が生じた.これは次年度でも研究成果発表のための旅費および参加費として使用する.
|