深層ニューラルネットワークは,コンピュータビジョンの様々なタスクに対し,高い性能を達成し,実応用も進んでいる.しかしながら,実用化を進める上で,学習データの分布から外れたデータに対する性能低下(=ドメインシフト)が大きな障壁となっている.例えば,外乱による画像の劣化が生じた場合,同じような画像が学習データに含まれていなければ,その性能は大きく低下してしまう.そこで本研究では,従来行われてこなかったアプローチとして,ドメインシフトに頑健なネットワーク構造を自動で作り出すことで,上述の課題解決を目指し,研究を進めてきた. 当該年度においても,昨年度までと同様に,Vision Transformerのネットワーク構造とその画像劣化に対する頑健性を検証した.具体的には,どのようなネットワーク構造が優れた頑健性を示すのかを網羅的に検証するために,Vision Transformerのための効率的なニューラル構造探索手法を利用し,サンプリングされたネットワーク構造のドメインシフトに対する頑健性を調査した.結果として,ネットワーク構造の違いによる頑健性の向上は限定的であるという知見が得られている.これは,大量かつ多様なデータ(例えば,Web上に存在する大量の画像・キャプションペア)でモデルを学習することが,ドメインシフトに対しても効果的であるという,直近数年間で発表された既存研究(例えば,CLIP)による報告とも一致する. そこで,最終年度では本研究の焦点をCLIPに移し,ネットワーク構造がその性能に与える影響を調査した.結果として,優れた性能を示すネットワーク構造に関する一定の知見が得られた.
|