Project/Area Number |
22K12090
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
玉木 徹 名古屋工業大学, 工学(系)研究科(研究院), 教授 (10333494)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | コンピュータビジョン / 映像解析 / 動画像認識 / ディープラーニング / 動画像理解 / 時空間特徴 |
Outline of Research at the Start |
本研究の目的は,動画像理解のための時空間特徴量を取得する新しい方法論を構築することである.様々な動画像認識において空間的な情報と時間的な情報を,時空間情報としてひとまとめで扱う事が多いが,本研究が目指すのは,空間情報と時間情報を高いレベルで分離するというアプローチである.単に別々に特徴量を抽出するのではなく,様々な動画認識タスクに応用するために,時間と空間の情報を関連させつつ分離するために,所望の性質を満たす特徴量を設計するという枠組みを提案する.
|
Outline of Annual Research Achievements |
本研究の目的は,動画像理解における時空間特徴量の取得方法について,新しい方法論を構築することである.通常の動画像認識では,空間的な情報と時間的な情報を組み合わせて時空間情報として扱うことが一般的である.しかし本研究では,空間情報と時間情報を高いレベルで分離するという新しい手法に取り組む.従来のアプローチでは,単に別々に特徴量を抽出することが一般的だが,本研究では,時間と空間の情報を関連付けつつも分離するために,所望の性質を満たす特徴量を設計するというアプローチを取る.この手法は,様々な動画認識タスクに応用することが可能である.この新しい枠組みによって得られる特徴量は,例えば動画像の中での物体検出や行動認識などのタスクにおいて有用な情報となり得る.また,時空間情報の分離により,動画像の解析や処理の効率性も向上することが期待される.さらに,この手法は将来的にはロボットや自動運転などの領域において,高度な環境理解や行動予測に役立つ可能性がある.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在,動作認識のさまざまな側面に焦点を当てて研究を進めている. 様々なドメインの動画像の特徴を効果的に学習するためのマルチドメインに対応する時空間アダプタを導入する手法を開発した.現在,アダプタの再設計および複数のドメインに対する損失の動的な重み付け手法をマルチタスク学習の分野から導入する実験を進めており,有望な結果が得られている.画質劣化による情報の欠損やノイズに対しても頑健な動作認識を実現するため,さまざまな画質劣化を適用した低品質な動画像に対してモデルがどの程度正確に動作認識が可能かを評価する実験を行った.これにより,画質劣化が性能にどのような影響を与えるのかが定量的に評価できるようになったため,今後は特徴量に対してどの程度影響を与えるのかの調査が必要である.アテンション機構を用いて,動作認識のために動画像内の重要な領域に注目するためのシャープなアテンションマップの生成手法を開発した.これにより,動作認識のために重要となる領域の評価が可能になったため,動作認識の重要度と特徴量との関係性を調査が可能になると考えている.効率的かつ効果的な動画像認識のために,動画像を3Dとして処理するのではなく,フレーム毎に処理した結果を統合して,特徴量のシフト操作を用いた新しい動画像認識手法を考案した.これにより,長い動画像に対しても効率的に処理を行う方向性が開けた.物体領域のコピー・ペーストを利用する,動作認識のためのデータ拡張にも取り組んだ.これにより,さまざまな人物動作や背景に対しても頑健な動作認識モデルが得られ,現実のシーン内の様々な変動による性能低下を抑えることが期待される.現在,さらなるデータ拡張の方法とその有効性を評価するための実験を行っている.
|
Strategy for Future Research Activity |
動作認識の様々な側面についてのこれまでの研究を更に発展させる.今年度に考案した動作認識手法とその結果から,どのような場合に効果的な特徴量となるのかについての知見が少しずつ得られている.今後は時間的および空間的な特徴にどのように影響を与えるのかを評価しながら研究を進める.また長時間の動画像を効率的に扱うことの重要性が明らかとなったため,効率的な開発を実現するために,どのように動画像を扱えばよいかについての検討も行う.
|
Report
(1 results)
Research Products
(15 results)