2022 年度実績報告書

画像空間と画像変換学習システムの構造

研究課題

研究課題/領域番号	20H00615
研究機関	早稲田大学
研究代表者	石川博早稲田大学, 理工学術院, 教授 (60381901)
研究期間 (年度)	2020-04-01 – 2025-03-31
キーワード	CNN
研究実績の概要	まず、CNNの領域分割能力に着目し、一回の推論では十分な領域分割ができないことを確認した。この問題に対応するため、従来の領域分割アルゴリズムをニューラルネット内部で使用可能なモジュールとして実装することに取り組み、既存の深層学習フレームワーク上で動作するGPUを用いた領域分割モジュールの実装が完了した。また、本手法を利用することで既存のタスクでのCNNの性能改善ができるか検証したが、その学習の不安定さから、大きな性能改善には繋がらないことを確認した。また、最近大きな性能改善を達成している拡散生成モデルにおいては、CNNの推論を複数回行い画像を処理するため、推論回数を増やすことで特別な処理なく領域分割の性能を向上させることが可能である。そのため、領域分割の認識能力が出力の見た目を左右する動画像処理タスクにおいて、拡散生成モデルを使用し動画生成・補間の性能を向上させる手法の研究に取り組んだ。一方、昨年度取り組み始めたVQAの一種としての物体計数タスク、および画像の美的評価のタスクについて、前者では、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の画像をできるだけ現実の写真に似るように生成することを目標とした。画像と言語を結べ居着けるモデルであるＣＬＩＰを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた。この成果についてまとめた論文は国際会議に投稿した。また、画像の美的評価のタスクにおいても、ＣＬＩＰを使用することを検討中であるが、それ以外に、イラストレーションの美的評価のためのデータセットをウェブサイトの評価データから作成し、その手法についてまとめた論文を国際会議に投稿した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画通り本年度はこれまでの視点に加え特にチャンネル方向次元について考察し、全体としてデータ空間構造とネットワーク構造との関係、汎化性能の説明の謎に迫るため、開発した領域分割モジュール手法を利用することで既存のタスクでのCNNの性能改善ができるかどうかを検証した。その学習の不安定さから、大きな性能改善には繋がらないことを確認した。また、領域分割の認識能力が出力の見た目を左右する動画像処理タスクにおいて、拡散生成モデルを使用し動画生成・補間の性能を向上させる手法の研究に取り組んだ。
今後の研究の推進方策	計画通り推進していく。