研究課題/領域番号 |
21K11932
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京大学 |
研究代表者 |
菅野 裕介 東京大学, 生産技術研究所, 准教授 (10593585)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 視線推定 / コンピュータビジョン / 機械学習 / ドメイン適応 |
研究開始時の研究の概要 |
画像入力のみを手がかりに人物の視線方向を推定するための技術は現在活発に研究が行われているが、学習時と推論時の環境の違い、特にカメラから見た頭部姿勢・視線方向の分布の違いにより推定性能が劣化する問題を抱えている。本研究では、既存の視線データセットから復元した顔形状を元に姿勢を変えてレンダリングした学習データを元に、生成画像と実画像の見え方の違いを吸収するためのドメイン適応手法の開発を行うことで、学習データに含まれない頭部姿勢範囲にも対応できる視線推定手法の確立を目指す。
|
研究実績の概要 |
本年度は、前年度に検討した3次元復元に基づく学習データ生成手法と、特徴分離を元にしたドメイン適応手法を統合した手法の実装・検証を行った。既存の訓練データに含まれる顔画像データのほとんどは正面顔であるが、顔形状の3次元復元を行い新たな顔向きでレンダリングすることで学習データに含まれる顔向きを拡張することができる。この時、生成データと実データの見えのさを吸収するための教師なしドメイン適応が重要になるが、単にターゲットドメインにおける疑似タスクを導入するのではなく、視線と頭部姿勢、その他の要因を表現する3つの内部特徴を事前学習の際に分離することでより効果的なドメイン適応が実現できる。顔領域以外の背景領域がランダム生成になっている生成データの特性に注目し、ターゲットドメイン画像で疑似的に背景領域を入れ替えた画像を生成した際に推定結果が変化しない、という拘束を新たに損失関数として導入し、これによる精度向上結果を確認した。 また、生成データの新たな活用として、これまでの単眼入力に基づくアピアランスベース視線推定だけではなく、複数のカメラ入力を用いたアピアランスベース視線推定モデルの開発に新たに取り組んだ。生成データのみで複眼アピアランスベース視線推定モデルが学習できることは実用上も大きな利点となる。 さらに、未知の環境に視線推定モデルを適応する本課題から派生した新たなタスクとして、アイコンタクト検出モデルの教師なし学習という問題設定を提案し検証を行った。任意のビデオ入力を元にアイコンタクトが発生しているフレームを検出するモデルを学習することは容易な課題ではないが、提案手法では視線推定モデルの出力を元に与えた疑似ラベルを使って、多種多様なビデオからアイコンタクトのセグメンテーションモデルを学習する手法を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
ターゲットドメインにおける疑似タスクの設定は異なるものの、生成データと疑似タスクを組み合わせて未知の環境に適応するというアイデアは基礎的な部分が実現できた。実際に生成データをソースドメインとしてドメイン適応の課題に取り組むことで見えた点を踏まえたドメイン適応手法設計は技術的な価値も高いと考える。 また、アイコンタクトモデルの教師なし学習やマルチビュー入力に基づくアピアランスベース視線推定など、研究課題から派生した新たな研究項目に関しても順調に基礎検討と論文発表を進めることができた。
|
今後の研究の推進方策 |
生成データを元にしたドメイン適応手法については、国際論文誌での発表を想定しさらに実験・分析を進める予定である。また、派生した研究課題に関しては引き続き検討を進めるとともに、本研究課題のアイデアである生成データの活用について検証する。
|