研究課題
畳み込みニューラルネットワーク(CNN)は、一般のニューラルネットワークの構造に加えて、変数に空間的な意味を与え、近傍や対称性の概念をその構造に反映させている。単純な一般物体認識問題の場合、ネットワークの出力はラベルであり、出力の空間には構造が全くないといえる。これに対して、画像変換問題の場合、出力も画像であったり、画像状の構造を持ったりする。タスクが決まれば出力の空間の構造も決まるので、これが入力データ空間と同様に、ネットワーク構造を決めるアプリオリな手掛かりとなる。そのため、本研究では、構造と汎化の関係を考察するための実例として、主に画像変換問題のような構造つき予測問題を考える。本年度はデータ空間の構造に導かれた効率的なネットワーク設計指針を知るための糸口として、画像処理においてCNNが不得意なタスクについてその原因を明らかにしこれを改善するための手法を開発するため、CNN で解くことが困難であるがコンピュータアルゴリズムでは解くことが容易な問題を生成するプログラムを開発した。また、既存のニューラルネット構造でこの問題と正解を学習させることでは、この問題が解けないことを実験的に示した。この結果は、より多くのデータをより大きなニューラルネットで学習させることで性能が向上するという現在の常識には限界があることを示す有意義な根拠となる。その他、構造と汎化の関係を考察するための実例として、Visual Question Answering (VQA)の一種としての物体計数タスク、および画像の美的評価のタスクについてもとりくみを始めた。前者では、一般に分類問題として扱われるVQAを回帰問題として扱うことを試みた。後者ではビジョントランスフォーマーを使って美的評価問題を分類問題として解くことを試みた。
2: おおむね順調に進展している
計画通り本年度はデータ空間の構造に導かれた効率的なネットワーク設計指針を知るための糸口として、CNN で解くことが困難であるがアルゴリズムでは解くことが容易な問題を生成するプログラムを開発し既存のニューラルネット構造でこの問題と正解を学習させることでは、この問題が解けないことを実験的に示した。
計画通り推進していく。
すべて 2021
すべて 雑誌論文 (1件) (うち査読あり 1件)
Proceedings - 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2021
巻: 1 ページ: 3916-3920
10.1109/CVPRW53098.2021.00437