研究課題/領域番号 |
20K19836
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 深層学習 / 人体三次元形状 / 人体三次元姿勢 |
研究実績の概要 |
今年度は、単眼画像から人体三次元形状(体型とポーズ)を復元する学習モデル、Deformable mesh transFormer (DeFormer)を構築した。DeFormerは、Transformerデコーダ内にフィードバックループを形成し、入力画像に対してメッシュモデルを適合させる。デコーダは、1)疎なセルフアテンションと2)変形メッシュクロスアテンションという身体メッシュ駆動型の効率的なアテンションモジュールからなり、標準的なTransformerのアテンションを用いた従来法では計算コストが高く活用が困難であった高解像度の画像特徴マップと高密度のメッシュモデルを効果的に利用することができる。その結果、Human3.6Mと3DPWというベンチマークにおいて従来法を上回る性能を発揮した。また、手の三次元形状復元のベンチマークFreihandや二次元キーポイントを推定するCOCOベンチマークにおいても従来法よりも高い性能を確認した。さらに、HRformerという視覚トランスフォーマーをバックボーンモデルとして導入することで、さらなる性能の向上を図った。この成果は、CVPR2023で発表予定である。加えて、表情や手指の動きを含むエクスプレッシブなメッシュ形状を復元するために、SMPL-X体型モデルと画像に対して人体三次元メッシュをラベリングしたデータセットであるNeuralAnnotを導入した。今後このデータセットを用いてDeFormerを学習予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
コロナの影響や前年度の出向により、計測設備、計算機、データセットの準備等が遅れた。また、人を対象とする計測は容易に行えなかった。今年度からは、クラウド計算資源(abci)を十分に導入して効率化をはかり、既存の公開データセットを組み合わせて学習を行うという方向にシフトし、十分な成果を得ることができた。来年度は成果発表、残りの課題の解決と研究総括を行い、本課題完了予定である。
|
今後の研究の推進方策 |
今後は、今年度構築したDeFormerに、GANやDiffusion modelなどの生成モデルやMasked modelingなど自己教師学習ロスを組み込み、学習の効率化や性能の向上を図る予定である。
|
次年度使用額が生じた理由 |
年度末にabci計算機費用約20万円の執行を予定していたが、所内事務処理の都合上計上できなかったため。2023年度において、ソフトウェア保守や学会参加費用に充てる予定である。
|