研究課題/領域番号 |
21K11932
|
研究機関 | 東京大学 |
研究代表者 |
菅野 裕介 東京大学, 生産技術研究所, 准教授 (10593585)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 視線推定 / コンピュータビジョン / 機械学習 |
研究実績の概要 |
本年度は、顔形状の3次元復元に基づく学習データ生成手法について実験的な検証を進めた。視線推定モデルの学習に用いる顔画像データは人物や照明条件、頭部姿勢など様々な点で多様な情報を含むことが求められるが、全ての要求を満たすデータセットを構築することは難しい。本研究では、通常の視線推定データセットに含まれる視線方向アノテーション付きの単眼画像から顔形状を復元し、それを回転させることで擬似的に頭部姿勢と視線の範囲を広げるアプローチに取り組んだ。顔形状復元モデルが出力する顔形状をカメラ座標系に合わせ、整合性を保ったまま視線方向真値ラベルを回転させるための定式化について議論した上で、背景や顔領域の明るさを変更するデータ拡張や、生成した顔領域に相当するマスク画像を補助的に学習に用いる手法を提案した。本研究のアプローチにより、元のデータセットに含まれない頭部姿勢を持つ入力画像に対する視線推定性能が向上し、既存の学習データ生成手法を用いた場合を大きく上回る性能が得られることを示した。 また、視線推定モデルのドメイン適応のために、特徴分離を行う手法についても検討を行った。視線推定モデルの内部で入力顔画像から特徴を抽出する際に、視線、頭部姿勢、それ以外のアピアランスに関連する各特徴を分離するようネットワークを学習する。特徴を入れ替えた際にデコーダにより生成される画像に対する複数の損失関数を組み合わせることでこれを実現している。このような特徴分離を行うことで、適応対象のドメインで擬似ラベル学習を行う際の性能が向上する可能性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
3次元復元に基づく学習データ生成に関して、当初の予定通り検証実験を進め、その有効性および技術的な課題を確認することができた。本年度に得られた結果をまとめた論文は国際ワークショップに採択されており、来年度発表予定である。 また、ドメイン適応手法に関してもその基盤となる特徴分離アプローチの基礎的な検討を終えることができた。
|
今後の研究の推進方策 |
今後は生成する学習データの有効性を向上させるためのレンダリング・データ拡張手法について引き続き検討を進める。また、適応先ドメインで有効な擬似ラベルを獲得するためのアプローチについても検証を行う。
|