まず、CNNの領域分割能力に着目し、一回の推論では十分な領域分割ができないことを確認した。この問題に対応するため、従来の領域分割アルゴリズムをニューラルネット内部で使用可能なモジュールとして実装することに取り組み、既存の深層学習フレームワーク上で動作するGPUを用いた領域分割モジュールの実装が完了した。また、本手法を利用することで既存のタスクでのCNNの性能改善ができるか検証したが、その学習の不安定さから、大きな性能改善には繋がらないことを確認した。また、最近大きな性能改善を達成している拡散生成モデルにおいては、CNNの推論を複数回行い画像を処理するため、推論回数を増やすことで特別な処理なく領域分割の性能を向上させることが可能である。そのため、領域分割の認識能力が出力の見た目を左右する動画像処理タスクにおいて、拡散生成モデルを使用し動画生成・補間の性能を向上させる手法の研究に取り組んだ。一方、昨年度取り組み始めたVQAの一種としての物体計数タスク、および画像の美的評価のタスクについて、前者では、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の画像をできるだけ現実の写真に似るように生成することを目標とした。画像と言語を結べ居着けるモデルであるCLIPを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた。この成果についてまとめた論文は国際会議に投稿した。また、画像の美的評価のタスクにおいても、CLIPを使用することを検討中であるが、それ以外に、イラストレーションの美的評価のためのデータセットをウェブサイトの評価データから作成し、その手法についてまとめた論文を国際会議に投稿した。
|