2021 年度実績報告書

画像空間と画像変換学習システムの構造

研究課題

研究課題/領域番号	20H00615
研究機関	早稲田大学
研究代表者	石川博早稲田大学, 理工学術院, 教授 (60381901)
研究期間 (年度)	2020-04-01 – 2025-03-31
キーワード	CNN
研究実績の概要	畳み込みニューラルネットワーク(CNN)は、一般のニューラルネットワークの構造に加えて、変数に空間的な意味を与え、近傍や対称性の概念をその構造に反映させている。単純な一般物体認識問題の場合、ネットワークの出力はラベルであり、出力の空間には構造が全くないといえる。これに対して、画像変換問題の場合、出力も画像であったり、画像状の構造を持ったりする。タスクが決まれば出力の空間の構造も決まるので、これが入力データ空間と同様に、ネットワーク構造を決めるアプリオリな手掛かりとなる。そのため、本研究では、構造と汎化の関係を考察するための実例として、主に画像変換問題のような構造つき予測問題を考える。本年度はデータ空間の構造に導かれた効率的なネットワーク設計指針を知るための糸口として、画像処理においてCNNが不得意なタスクについてその原因を明らかにしこれを改善するための手法を開発するため、CNN で解くことが困難であるがコンピュータアルゴリズムでは解くことが容易な問題を生成するプログラムを開発した。また、既存のニューラルネット構造でこの問題と正解を学習させることでは、この問題が解けないことを実験的に示した。この結果は、より多くのデータをより大きなニューラルネットで学習させることで性能が向上するという現在の常識には限界があることを示す有意義な根拠となる。その他、構造と汎化の関係を考察するための実例として、Visual Question Answering (VQA)の一種としての物体計数タスク、および画像の美的評価のタスクについてもとりくみを始めた。前者では、一般に分類問題として扱われるVQAを回帰問題として扱うことを試みた。後者ではビジョントランスフォーマーを使って美的評価問題を分類問題として解くことを試みた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画通り本年度はデータ空間の構造に導かれた効率的なネットワーク設計指針を知るための糸口として、CNN で解くことが困難であるがアルゴリズムでは解くことが容易な問題を生成するプログラムを開発し既存のニューラルネット構造でこの問題と正解を学習させることでは、この問題が解けないことを実験的に示した。
今後の研究の推進方策	計画通り推進していく。

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Differentiable rendering-based pose-conditioned human image generation2021
- 著者名/発表者名
  Yusuke Horiuchi, Edgar Simo-Serra, Satoshi Iizuka, Hiroshi Ishikawa
- 雑誌名
  
  Proceedings - 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2021
  
  巻: 1 ページ: 3916-3920
- DOI
  10.1109/CVPRW53098.2021.00437
- 査読あり