Project/Area Number |
21H04908
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
Hara Kensho 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (70837575)
|
Co-Investigator(Kenkyū-buntansha) |
青木 義満 慶應義塾大学, 理工学部(矢上), 教授 (00318792)
金子 直史 東京電機大学, 未来科学部, 准教授 (40803531)
片岡 裕雄 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 上級主任研究員 (70784883)
|
Project Period (FY) |
2021-04-05 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥32,890,000 (Direct Cost: ¥25,300,000、Indirect Cost: ¥7,590,000)
Fiscal Year 2023: ¥9,230,000 (Direct Cost: ¥7,100,000、Indirect Cost: ¥2,130,000)
Fiscal Year 2022: ¥10,270,000 (Direct Cost: ¥7,900,000、Indirect Cost: ¥2,370,000)
Fiscal Year 2021: ¥13,390,000 (Direct Cost: ¥10,300,000、Indirect Cost: ¥3,090,000)
|
Keywords | 深層学習 / 行動認識 / 動画認識 / Transformer / シーングラフ / コンピュータビジョン / 動画像解析 |
Outline of Research at the Start |
少子高齢化による労働力不足やWith/After コロナ社会での無人店舗の重要性増加などにより防犯・防災の監視に穴が空きやすい中でも人々の安全・安心を支えていく上では,転倒などの危険や,盗難行動,暴行など,いち早く対応すべき異常をAI により自動的に検出可能とすることが期待される.異常検知を始めとして,動画像をより高度に解析するためには動画像中の場面や状況を表現する「文脈」を考慮することが重要である.そこで本研究では,文脈を考慮した動画像解析技術の確立を目指し,人物行動と文脈を明示的に切り分けてモデル化した後に統合することで場の文脈を考慮した異常行動の自動検知を実現する.
|
Outline of Final Research Achievements |
The purpose of this research is to model the context in videos and establish an anomaly detection framework based on the context. Specifically, we focused on (a) modeling spatial context, (b) modeling temporal context, (c) developing models that represent human behavior independently of context, and (d) researching automatic detection algorithms for anomalous behavior based on the context. Since the problem of (d) is being resolved to some extent given the recent advancements in large-scale language models, we concentrated our research efforts particularly on (a) through (c). As a result, we have made progress in constructing models that represent context and human behavior in details, including the establishment of a scene graph detection method to represent the spatial and temporal context of scenes.
|
Academic Significance and Societal Importance of the Research Achievements |
近年の研究開発により人工知能技術が急速に進展により視覚的な情報に基づく単純な識別問題は解決されつつある一方で,動画像中の場面や状況を表現する「文脈」を考慮し動画像をより高度に解析することは困難な問題として残っている.本研究では人物と周囲の物体や環境との関係性を捉えることが文脈の表現に重要であることに着目し動画中の文脈の表現を可能とした.これにより,大規模言語モデルの文脈理解能力と組み合わせることで動画中の文脈に従った人物行動の異常検知を可能とし,より高度な動画像解析の実現及び人々の安全・安心を支える基盤技術の構築に貢献した点に学術的・社会的意義がある.
|