不変性と、入力から得られる情報の空間の相補性について検討した。VQAの一種としての物体計数タスクでは、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の生成画像をできるだけ現実の写真に似るように生成した。画像と言語を結びつけるモデルであるCLIPを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた論文を国際会議ICIPで発表した。この研究の継続として本年度は現実の写真と生成画像におけるモデルの性能のギャップを縮めるためにドメイン不変な特徴を抽出することをめざすドメイン汎化を検討することにした。また、画像の美的評価のタスクにおいても、人間による美的評価スコアを持つ訓練画像と美的評価をする自然言語の相関をCLIPにより得ることにより、与えられた画像について逆に自然言語との相関から美的評価をすることを検討した。さらに、CNNによる画像内の透明物体検出手法を検討した。屈折や反射など透明物体に特有な低レベルな特徴は周囲の環境によって影響されやすく、非常に認識しにくいため、既存の透明物体検出モデルは透明物体に由来する特徴ではなく、透明物体の周囲を囲むフレームなどのわかりやすい物体の特徴に頼って透明物体を検出しようとする。結果的にこのようなモデルはフレーム等に似た物体に簡単に騙される。そこで、透明物体の検出に特化したデータ拡張を提案し、国際会議に投稿した。さらに別の研究では、リアルタイムのエクササイズ映像認識のために、人体姿勢認識とConnectionist Temporal Classification (CTC) ロス関数を使用する手法を提案し、国際会議に投稿した。
|