性能が高い深層学習モデルを構築ために,通常大量なアノテーションありデータが必要であり,そのために膨大な人力、財力と時間がかかります.アノテーションのコストを減らすために,アノテーションありのデータの数を小さくして,アノテーションなしのデータも訓練に用いる手法が提案されています.しかし,スクレイピングなどでデータを収集する際にはラベルノイズや意図外の未知データが含まれる可能性があります. 本研究の目的は,実世界の応用に適したロバストな画像認識の学習手法を構築することである.令和4年度には,データセットに未知データが含まれた場合,データの数が少ない状況でも,精度がロバストな深層学習モデルの構築に取り組んできました.データの少なさによる悪影響を回避するためには,次の2課題に取り組みました.(1)アノテーションありデータとアノテーションなしデータの間にドメインギャップが存在するドメイン適応というタスクにおいて,アノテーションありデータの数が非常に少ない条件でも,正しくアノテーションありデータとアノテーションなしデータから特徴量を学習し,アノテーションなしデータの既知クラスと未知クラスを正しく分類できる手法を提案しました.(2) ドメイン適応のタスクにおいて,大規模データで学習された言語と画像のマルチモーダル基盤モデルCLIPを利用することで,既存のドメイン適応よりも大幅に精度が高い手法を提案しました.前者はマルチメディアのトップジャーナルであるIEEE Transactions on Multimediaに投稿し,後者はコンピュータビジョンの最難関国際会議であるICCVに投稿しました.また,インターンシップでノイズが含まれる動画認識の研究を行いました.人間の動作に着目した行動局所化により,1回のラベル付けのみで動画内の全フレームのラベル付けを完了する手法を提案しました.その成果はトップコンファレンスのAAAIに採択されました.
|