2022 年度実施状況報告書

顔形状復元によるデータ生成と自己教師型補助タスクに基づく視線推定器のドメイン適応

研究課題

研究課題/領域番号	21K11932
研究機関	東京大学
研究代表者	菅野裕介東京大学, 生産技術研究所, 准教授 (10593585)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	視線推定 / コンピュータビジョン / 機械学習
研究実績の概要	本年度は、前年度に検討した3次元復元に基づく学習データ生成手法と、特徴分離を元にしたドメイン適応手法を統合した手法の実装・検証を行った。既存の訓練データに含まれる顔画像データのほとんどは正面顔であるが、顔形状の3次元復元を行い新たな顔向きでレンダリングすることで学習データに含まれる顔向きを拡張することができる。この時、生成データと実データの見えのさを吸収するための教師なしドメイン適応が重要になるが、単にターゲットドメインにおける疑似タスクを導入するのではなく、視線と頭部姿勢、その他の要因を表現する3つの内部特徴を事前学習の際に分離することでより効果的なドメイン適応が実現できる。顔領域以外の背景領域がランダム生成になっている生成データの特性に注目し、ターゲットドメイン画像で疑似的に背景領域を入れ替えた画像を生成した際に推定結果が変化しない、という拘束を新たに損失関数として導入し、これによる精度向上結果を確認した。また、生成データの新たな活用として、これまでの単眼入力に基づくアピアランスベース視線推定だけではなく、複数のカメラ入力を用いたアピアランスベース視線推定モデルの開発に新たに取り組んだ。生成データのみで複眼アピアランスベース視線推定モデルが学習できることは実用上も大きな利点となる。さらに、未知の環境に視線推定モデルを適応する本課題から派生した新たなタスクとして、アイコンタクト検出モデルの教師なし学習という問題設定を提案し検証を行った。任意のビデオ入力を元にアイコンタクトが発生しているフレームを検出するモデルを学習することは容易な課題ではないが、提案手法では視線推定モデルの出力を元に与えた疑似ラベルを使って、多種多様なビデオからアイコンタクトのセグメンテーションモデルを学習する手法を提案した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由ターゲットドメインにおける疑似タスクの設定は異なるものの、生成データと疑似タスクを組み合わせて未知の環境に適応するというアイデアは基礎的な部分が実現できた。実際に生成データをソースドメインとしてドメイン適応の課題に取り組むことで見えた点を踏まえたドメイン適応手法設計は技術的な価値も高いと考える。また、アイコンタクトモデルの教師なし学習やマルチビュー入力に基づくアピアランスベース視線推定など、研究課題から派生した新たな研究項目に関しても順調に基礎検討と論文発表を進めることができた。
今後の研究の推進方策	生成データを元にしたドメイン適応手法については、国際論文誌での発表を想定しさらに実験・分析を進める予定である。また、派生した研究課題に関しては引き続き検討を進めるとともに、本研究課題のアイデアである生成データの活用について検証する。

研究成果
(6件)

すべて 2023 2022

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (4件) (うち国際学会 2件、招待講演 1件)

[雑誌論文] Learning Video-Independent Eye Contact Segmentation from?In-the-Wild Videos2023
- 著者名/発表者名
  Wu Tianyi、Sugano Yusuke
- 雑誌名
  
  Lecture Notes in Computer Science (ACCV2022)
  
  巻: 13844 ページ: 52～70
- DOI
  10.1007/978-3-031-26316-3_4
- 査読あり / オープンアクセス
[雑誌論文] Learning-by-Novel-View-Synthesis for Full-Face Appearance-Based 3D Gaze Estimation2022
- 著者名/発表者名
  Qin Jiawei、Shimoyama Takuru、Sugano Yusuke
- 雑誌名
  
  Proc. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
  
  巻: - ページ: 4977-4987
- DOI
  10.1109/CVPRW56347.2022.00546
- 査読あり / オープンアクセス
[学会発表] 人にひらかれたメディア理解に向けて ―人を理解する、人と理解する―2022
- 著者名/発表者名
  菅野裕介
- 学会等名
  電子情報通信学会パターン認識・メディア理解研究会（PRMU）
- 招待講演
[学会発表] View-consistent Feature Alignment for Multi-view Appearance-based Gaze Estimation2022
- 著者名/発表者名
  Yoichiro Hisadome、Yusuke Sugano
- 学会等名
  第25回画像の認識・理解シンポジウム
[学会発表] Learning-by-Novel-View-Synthesis for Full-Face Appearance-Based 3D Gaze Estimation2022
- 著者名/発表者名
  Qin Jiawei、Shimoyama Takuru、Sugano Yusuke
- 学会等名
  4th International Workshop on Gaze Estimation and Prediction in the Wild
- 国際学会
[学会発表] Learning Video-Independent Eye Contact Segmentation from?In-the-Wild Videos2022
- 著者名/発表者名
  Wu Tianyi、Sugano Yusuke
- 学会等名
  16th Asian Conference on Computer Vision (ACCV2022)
- 国際学会

2022 年度 実施状況報告書

顔形状復元によるデータ生成と自己教師型補助タスクに基づく視線推定器のドメイン適応

研究代表者

菅野 裕介 東京大学, 生産技術研究所, 准教授 (10593585)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Learning Video-Independent Eye Contact Segmentation from?In-the-Wild Videos2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Learning-by-Novel-View-Synthesis for Full-Face Appearance-Based 3D Gaze Estimation2022

著者名/発表者名

雑誌名

DOI

[学会発表] 人にひらかれたメディア理解に向けて ―人を理解する、人と理解する―2022

著者名/発表者名

学会等名

[学会発表] View-consistent Feature Alignment for Multi-view Appearance-based Gaze Estimation2022

著者名/発表者名

学会等名

[学会発表] Learning-by-Novel-View-Synthesis for Full-Face Appearance-Based 3D Gaze Estimation2022

著者名/発表者名

学会等名

[学会発表] Learning Video-Independent Eye Contact Segmentation from?In-the-Wild Videos2022

著者名/発表者名

学会等名

2022 年度実施状況報告書

菅野裕介東京大学, 生産技術研究所, 准教授 (10593585)