研究課題/領域番号 |
22K12130
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61020:ヒューマンインタフェースおよびインタラクション関連
|
研究機関 | 富山県立大学 |
研究代表者 |
高野 博史 富山県立大学, 工学部, 准教授 (40363874)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2022年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
|
キーワード | 微表情 / 感情推定 / 特徴選択 / 深層学習 / 部分遮蔽 / 表情認識 / 特徴量選択 / 特徴抽出 / 画像認識 |
研究開始時の研究の概要 |
微表情はヒトが無意識のうちに生じるわずかな顔の動きであり、感情とは異なる表情を表出することはできないため、真の感情を反映している。顔映像から微表情を検出し、感情を推定することができれば、ロボットが人に寄り添った心地よいコミュニケーションを行うことが可能となる。本研究では、顔の向きや顔の部分遮蔽が生じた場合でも、微表情による感情推定が可能となる手法を開発する。本提案法は、顔の向きや遮蔽領域の検出結果をもとに、感情推定に用いる複数の特徴量を選択することで顔の状態変化に対応する。本研究で得られる知見は、微表情による感情推定システムを実環境で利用する際の指標となる。
|
研究実績の概要 |
微表情はヒトが無意識のうちに生じるわずかな顔の動きであり、感情とは異なる表情を表出することができないため、真の感情を反映している。顔映像から微表情を検出し、感情を推定することができれば、ロボットが人に寄り添った心地よいコミュニケーションを行うことが可能となる。本研究では、顔の向きや顔の部分遮蔽が生じた場合でも、微表情による感情推定が可能となる手法を開発する。 2023年度では、深層学習のネットワークモデルの一つであるResNetをベースに、Attention機構としてAttention Branch Network、損失関数に距離学習の一つであるArcFaceを導入し、微表情による感情認識の性能評価を行った。入力情報は顔全体もしくは顔を部分領域に分割した場合の2種類とし、微表情が最も表出しているApex frameのみの場合と微表情が表出している時間から抽出された3フレームを用いる場合について、感情認識の精度を求めた。学習条件として、通常の表情認識に用いられるCK+データベースを用いた事前学習も導入し、事前学習の有無に対する性能調査を行った。 実験結果より、Attention Branch Networkを組み込んだResNetに対して、顔を部分領域に分割した3フレームの動画像が最も識別精度が高いことが明らかとなった。また、Attention Mapを可視化した結果、学習が進むにつれ、顔の局所的な部分領域に注目が集まる傾向が確認された。この結果は、注目領域が遮蔽された場合、微表情による感情認識に影響を及ぼすことを示唆している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度は、微表情による感情認識の精度を向上させるために、深層学習のネットワークモデルであるResNetにAttention Branch Networkを組み込み、損失関数として距離学習の一つであるArcFaceを導入した。実験条件として、入力画像に対しては顔全体と部分顔に分割した場合の2種類とし、これらの入力画像を表情が最も表出しているApexフレームのみとする場合と、微表情が表出している時間から抽出された3フレームとする場合とした。次に、学習条件として、表情認識で用いられるCK+データベースで事前学習した後、微表情データベースでファインチューニングする方法と、微表情データベースのみで学習する方法の2種類とした。 微表情による感情認識の精度評価には、SMIC、CASME-II、SAMMの3種類の微表情データベースを用い、評価指標はAccuracyとした。ネットワークの学習には、データベースを5分割したうちの4分割分を用いて、残りの1分割分をテストデータとした交差検証によりAccuracyを求めた。 実験結果より、SAMMおよびSMICデータベースについては、入力画像を3フレームとした場合の精度が高く、CK+による事前学習が不要であることが明らかとなった。一方、CASME-IIデータベースでは、CK+による事前学習が効果的であることが示された。また、顔全体を入力とする場合に比べて、顔を部分領域に分割した方が認識精度の向上が見られた。一方、Attention Mapを可視化した結果より、ネットワークの学習が進むにつれ、注目領域が目の周辺や口元など顔の局所的な部分領域に形成されることが確認できた。つまり、この結果より、顔の部分遮蔽は微表情による感情認識に影響を及ぼすことを示唆している。
|
今後の研究の推進方策 |
2023年度は、ResNetにAttention Branch Networkを組合せた深層学習のネットワークモデルに対して、微表情による感情認識性能を明らかにした。また、認識精度を向上させるためのネットワークの学習方法や入力データの条件も明らかになった。しかし、十分な認識精度が得られたとは言えない。また、深層学習を用いることにより、顔の部分領域の特徴が感情認識に寄与していることが明らかになったが、部分遮蔽に脆弱である可能性が示唆された。 以上の結果を踏まえて、認証精度を向上させるために、他のネットワークモデルに対して認識性能を調査する。候補となる基盤モデルとしてViTを採用する。ViTは、画像を分割したパッチ画像を入力としている。そこで、顔の特徴点であるランドマークを基準に切出した部分領域をViTの入力画像(パッチ画像)とする。また、時系列画像が入力となるため、時系列ViTを用いる。 部分遮蔽が認識性能に与える影響については、パッチに分割した部分顔の一部を欠損データとした場合の認識精度を求める。様々な欠損箇所の組合せで認識性能を調べることで、微表情による感情認識に影響を及ぼす顔の部分領域を明確にする。
|