最終年度は公開学習データセットを用いて、自然言語処理で導入された注意機構(アテンションメカニズム)を顔表情解析のために改変し、動画の各フレーム毎に患者の痛み強度を推定する性能向上を図った。 画像のキャプション生成などにも使われ始めているアテンションメカニズムは、文章生成などに重要な画像のある領域をハイライトする。一方、痛み顔の表情においては、顔の局所的な領域がその表情生成に貢献していると考えられ、画像のキャプション生成とは異なるネットワークアーキテクチャが有効である可能性がある。そこで、新奇な局所的空間的アテンションメカニズムを考案し、エンドツーエンドで痛み推定のために重要な局所的空間的アテンション領域を学習し、顔の中でも痛みの表情が出やすい重要な領域に重みをつけ痛み推定を行うネットワーク構造を考案した。さらに、顔の表情は時間領域における顔の動的な変形である。これらの情報をモデル化するために、提案するネットワークアーキテクチャには長期短期記憶ネットワーク(LSTM:Long Short Term Memory)を組み込んだ。 結果として従来型のアテンションメカニズムより顔領域のきめ細かな変化を検出し、フレーム毎の痛み強度推定精度を改善することができた。顔動画像の中で痛み表情がでる時間は限られており、時間領域でのアテンションメカニズムも有効である可能性があるが、それについては有効性について比較検討することができなかった。
|