Project/Area Number |
21K11932
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Sugano Yusuke 東京大学, 生産技術研究所, 准教授 (10593585)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 視線推定 / 機械学習 / ドメイン適応 / コンピュータビジョン |
Outline of Research at the Start |
画像入力のみを手がかりに人物の視線方向を推定するための技術は現在活発に研究が行われているが、学習時と推論時の環境の違い、特にカメラから見た頭部姿勢・視線方向の分布の違いにより推定性能が劣化する問題を抱えている。本研究では、既存の視線データセットから復元した顔形状を元に姿勢を変えてレンダリングした学習データを元に、生成画像と実画像の見え方の違いを吸収するためのドメイン適応手法の開発を行うことで、学習データに含まれない頭部姿勢範囲にも対応できる視線推定手法の確立を目指す。
|
Outline of Final Research Achievements |
In this study, we combined a data generation method based on 3D face shape reconstruction with a domain adaptation technique using feature separation to develop a robust gaze estimation model that operates effectively in unknown environments. By reconstructing face shapes from monocular images and rendering them in various orientations, we enhanced the diversity of the training data. Unsupervised domain adaptation was employed to bridge the gap between generated data and real data. Additionally, we developed an appearance-based gaze estimation model using multi-camera input, achieving high generalization performance through feature transformation and fusion based on the relative orientation between cameras.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の学術的意義は、顔形状の3次元復元とドメイン適応を組み合わせた新しい視線推定手法を提案し、未知の環境でも高い精度を実現したことにある。また、任意の複数カメラを用いて視線推定を行うことのできる手法には前例がなく、カメラの位置関係を拘束条件として用いる特徴融合は他の課題にも応用できる可能性がある。 提案手法により、多様な姿勢や環境での視線推定が可能となり、自然なインタラクションを必要とする様々なアプリケーションに活用できる。例えば、対話システムやデジタルサイネージ、自動車の運転支援など、ユーザの視線情報を用いることで、よりシームレスで直感的なインターフェースの実現が期待できる。
|