研究課題/領域番号 |
21K11932
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京大学 |
研究代表者 |
菅野 裕介 東京大学, 生産技術研究所, 准教授 (10593585)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 視線推定 / 機械学習 / ドメイン適応 / コンピュータビジョン |
研究開始時の研究の概要 |
画像入力のみを手がかりに人物の視線方向を推定するための技術は現在活発に研究が行われているが、学習時と推論時の環境の違い、特にカメラから見た頭部姿勢・視線方向の分布の違いにより推定性能が劣化する問題を抱えている。本研究では、既存の視線データセットから復元した顔形状を元に姿勢を変えてレンダリングした学習データを元に、生成画像と実画像の見え方の違いを吸収するためのドメイン適応手法の開発を行うことで、学習データに含まれない頭部姿勢範囲にも対応できる視線推定手法の確立を目指す。
|
研究成果の概要 |
本研究では、顔形状の3次元復元に基づく学習データ生成手法と特徴分離を用いたドメイン適応手法を組み合わせることで、未知の環境でも頑健に動作する視線推定モデルの構築に取り組んだ。単眼画像から顔形状を復元し様々な顔向きでレンダリングすることで学習データの多様性を拡張し、教師なしドメイン適応により生成データと実データの差を吸収した。さらに、複眼カメラ入力を用いたアピアランスベース視線推定モデルを開発し、カメラ間の相対姿勢を手がかりとした特徴変換・融合により高い汎化性能を実現した。
|
研究成果の学術的意義や社会的意義 |
本研究の学術的意義は、顔形状の3次元復元とドメイン適応を組み合わせた新しい視線推定手法を提案し、未知の環境でも高い精度を実現したことにある。また、任意の複数カメラを用いて視線推定を行うことのできる手法には前例がなく、カメラの位置関係を拘束条件として用いる特徴融合は他の課題にも応用できる可能性がある。 提案手法により、多様な姿勢や環境での視線推定が可能となり、自然なインタラクションを必要とする様々なアプリケーションに活用できる。例えば、対話システムやデジタルサイネージ、自動車の運転支援など、ユーザの視線情報を用いることで、よりシームレスで直感的なインターフェースの実現が期待できる。
|