本年度は、DeFormerモデルの拡張を行うとともに今後の可能性について考察し研究総括した。また、昨年度までに開発したトランスフォーマベースの単眼画像三次元人間形状復元手法「Deformable mesh transformer(Deformer)」の成果発表をCVPR2023にて行った。コンピュータビジョンの国内学会MIRU2023の招待講演でもこの成果について発表を行った。 拡張実験では、まず、MAEという自己教師あり学習技術で事前学習されたViTモデルであるViTPoseをバックボーンモデルとして用いて、単眼画像からの人体三次元復元を行った。また、DeFormerを拡張して表情や手指の姿勢を含む人間モデルを復元するDeformerXを研究した。これらの拡張実験においては画像からend-to-endに三次元復元を行うことで比較的良好な復元結果を得ることができた。加えて、拡散モデルを用いた3D人間生成技術を開発し、単眼画像からの人体3D復元を行った。この方法では、まず、画像データから3Dポーズを復元し、3Dポーズを条件とした拡散モデルにより三次元メッシュを生成する。したがって、画像-3Dモデルのペアリングデータを用いる必要がない。従来のようにペアデータを用いてトランスフォーマモデルを学習した場合に比べて表面のノイズを軽減でき、ほぼ同等の精度(関節位置推定誤差での評価)が得られることがわかった。 トランスフォーマに基づく人体三次元学習技術は、これまでの手法に比べて画像に対してメッシュ高精度に位置合わせすることができる。一方で、学習データのスケール、モデルの計算効率が課題となる。今後、計算速度の向上によるリアルタイム性の向上や効率的な学習フレームワークのスケールアップ手法に加えて、ディテールや色の表現、多人数復元、動物など多様な対象の復元等さらなる研究の推進と発展が期待される。
|