Project/Area Number |
20K19836
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
Yoshiyasu Yusuke 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2020: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 深層学習 / 自己教師学習 / 体型 / 3Dポーズ / 機械学習 / 人体三次元形状 / 人体三次元姿勢 / 身体姿勢 / 姿勢 / 3次元 |
Outline of Research at the Start |
深層学習により画像認識の分野は目覚しい発展を遂げ、大規模データを用いて学習を行うことで認識精度が飛躍的に向上した。一方、人の身体3次元認識おいては、姿勢や体型などの3次元情報をラベル付けした大規模な画像データセットを構築することが難しく、画像分類や2Dポーズ認識と比較して十分な精度や汎用性を発揮するに至っていない。そこで、本研究課題では、人の体型と姿勢の3D学習に要するラベリング作業を軽減する自己教示学習について研究する。
|
Outline of Final Research Achievements |
In this study, we investigated self-supervised learning for reducing the effort of annotating 3D body shape and pose information to images, which has been a bottleneck in the task of learning 3D human body shape and pose from images. First, we collected and prepared image and 3D datasets for 3D human mesh recovery commonly used in the research field and built a model for estimating 3D body shape and pose using a transformer. Then, we developed three methods to reduce the use of 3D labels: 1) a method using an image feature extractor learned by a self-supervised learning method called masked autoencoder (MAE), 2) a learning method using dense correspondence information between 2D images and 3D models, and 3) a method using a 3D shape generation model.
|
Academic Significance and Societal Importance of the Research Achievements |
開発したトランスフォーマを用いた3D体型・ポーズ推定モデルは、ベンチマークにおいて高い性能を示し、コンピュータビジョン分野のトップ国際会議CVPR2023にも採録されており、学術的な意義が高い。また、MAEという自己教示学習を用いる方法、2D-3D間の密な対応付け情報を用いる方法、三次元生成モデルを用いる方法は学習に必要となる3Dラベルを軽減するという点で有用である。
|