Project/Area Number |
22KJ0999
|
Project/Area Number (Other) |
22J20071 (2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2022) |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
大川 武彦 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,100,000 (Direct Cost: ¥3,100,000)
Fiscal Year 2024: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2023: ¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 2022: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 手・物体操作理解 / 一人称ビジョン |
Outline of Research at the Start |
コンピュータビジョン技術による人物行動認識は,映像中の人物の行動を予測するタスクであり,人間の活動支援への応用が期待されている.しかし,実運用場面において十分な量の教師ラベルが入手可能であるとは限らないため,安価かつ迅速な行動認識モデルの構築は困難である.本研究では,異なるデータセット間に共通する動作特徴の転移可能性に注目して転移学習アルゴリズムを開発し,教師ラベルが限られる運用データにおいて人物行動認識を行う.
|
Outline of Annual Research Achievements |
今年度は,これまでの採用期間で開発した手操作認識モデルに関する知見をサーベイという形式でまとめ,さらなる発展領域である行動認識,マルチビュー画像に基づく手認識に関する研究を行なった.第一に,前年度の研究を深化させ,国際学会ICCV 2023にて手操作認識に関するワークショップ,そして一人称視点手姿勢推定に関するコンペティションを開催した.手操作認識に関するサーベイをトップジャーナルであるIJCVにて出版した.さらに,このコンペティションから派生して,マルチビューの一人称視点手姿勢推定タスクをCVPR 2024にて発表予定である.第二に,手操作認識の時間拡張,行動理解との接続に関する研究を実施した.実際の調理映像から手物体の位置情報をトラッキングして,キャプションとしての作業動作記述する手法を提案した.本研究はCVPR2024のワークショップにて発表予定である.
また,今年度は,チューリッヒ工科大学の訪問研究員としてスイスへ滞在し,マイクロソフトリサーチアジアも含めた共同研究という形式で研究を実施した.さらにシンガポール国立大学におけるセミナー講演や,国際会議ICCV, 国際研究会ICVSSにおける発表など行い,自身の研究のアウトリーチの良い機会となった.一人称視点調理映像データセット構築のプロジェクトに関しては,オムロンサイニックエックス社と産学連携して,被験者を集めて映像収録,アノテーションを行い,作業内容の解析を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
前年度から継続して手認識に関する研究を行い,トップジャーナル,国際会議に採択された.また,手認識からの行動認識への接続に関する発展研究も実施した.さらに,国際ワークショップ主催やチューリッヒ工科大学での訪問研究,シンガポール国立大学や国際研究会ICVSSにおける発表など,自身の研究をアウトリーチする経験を多数持つことができ,研究者間のネットワーク作りにも努めた.
|
Strategy for Future Research Activity |
引き続き,行動認識モデルの開発を進めて,アノテーションが限られる映像への行動認識モデルの転移学習手法の開発にも取り組む.近年,大規模な視覚言語モデルの開発が進み,広く応用されていることから,行動認識を自然言語で記述して実現する方針についても検討する.
|