研究課題/領域番号 |
20K19836
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2020年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 深層学習 / 人体三次元形状 / 人体三次元姿勢 / 自己教師学習 / 身体姿勢 / 体型 / 姿勢 / 3次元 |
研究開始時の研究の概要 |
深層学習により画像認識の分野は目覚しい発展を遂げ、大規模データを用いて学習を行うことで認識精度が飛躍的に向上した。一方、人の身体3次元認識おいては、姿勢や体型などの3次元情報をラベル付けした大規模な画像データセットを構築することが難しく、画像分類や2Dポーズ認識と比較して十分な精度や汎用性を発揮するに至っていない。そこで、本研究課題では、人の体型と姿勢の3D学習に要するラベリング作業を軽減する自己教示学習について研究する。
|
研究実績の概要 |
今年度は、単眼画像から人体三次元形状(体型とポーズ)を復元する学習モデル、Deformable mesh transFormer (DeFormer)を構築した。DeFormerは、Transformerデコーダ内にフィードバックループを形成し、入力画像に対してメッシュモデルを適合させる。デコーダは、1)疎なセルフアテンションと2)変形メッシュクロスアテンションという身体メッシュ駆動型の効率的なアテンションモジュールからなり、標準的なTransformerのアテンションを用いた従来法では計算コストが高く活用が困難であった高解像度の画像特徴マップと高密度のメッシュモデルを効果的に利用することができる。その結果、Human3.6Mと3DPWというベンチマークにおいて従来法を上回る性能を発揮した。また、手の三次元形状復元のベンチマークFreihandや二次元キーポイントを推定するCOCOベンチマークにおいても従来法よりも高い性能を確認した。さらに、HRformerという視覚トランスフォーマーをバックボーンモデルとして導入することで、さらなる性能の向上を図った。この成果は、CVPR2023で発表予定である。加えて、表情や手指の動きを含むエクスプレッシブなメッシュ形状を復元するために、SMPL-X体型モデルと画像に対して人体三次元メッシュをラベリングしたデータセットであるNeuralAnnotを導入した。今後このデータセットを用いてDeFormerを学習予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
コロナの影響や前年度の出向により、計測設備、計算機、データセットの準備等が遅れた。また、人を対象とする計測は容易に行えなかった。今年度からは、クラウド計算資源(abci)を十分に導入して効率化をはかり、既存の公開データセットを組み合わせて学習を行うという方向にシフトし、十分な成果を得ることができた。来年度は成果発表、残りの課題の解決と研究総括を行い、本課題完了予定である。
|
今後の研究の推進方策 |
今後は、今年度構築したDeFormerに、GANやDiffusion modelなどの生成モデルやMasked modelingなど自己教師学習ロスを組み込み、学習の効率化や性能の向上を図る予定である。
|