2023 年度実績報告書

画像空間と画像変換学習システムの構造

研究課題

研究課題/領域番号	20H00615
研究機関	早稲田大学
研究代表者	石川博早稲田大学, 理工学術院, 教授 (60381901)
研究期間 (年度)	2020-04-01 – 2025-03-31
キーワード	CNN
研究実績の概要	不変性と、入力から得られる情報の空間の相補性について検討した。VQAの一種としての物体計数タスクでは、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の生成画像をできるだけ現実の写真に似るように生成した。画像と言語を結びつけるモデルであるＣＬＩＰを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた論文を国際会議ICIPで発表した。この研究の継続として本年度は現実の写真と生成画像におけるモデルの性能のギャップを縮めるためにドメイン不変な特徴を抽出することをめざすドメイン汎化を検討することにした。また、画像の美的評価のタスクにおいても、人間による美的評価スコアを持つ訓練画像と美的評価をする自然言語の相関をＣＬＩＰにより得ることにより、与えられた画像について逆に自然言語との相関から美的評価をすることを検討した。さらに、CNNによる画像内の透明物体検出手法を検討した。屈折や反射など透明物体に特有な低レベルな特徴は周囲の環境によって影響されやすく、非常に認識しにくいため、既存の透明物体検出モデルは透明物体に由来する特徴ではなく、透明物体の周囲を囲むフレームなどのわかりやすい物体の特徴に頼って透明物体を検出しようとする。結果的にこのようなモデルはフレーム等に似た物体に簡単に騙される。そこで、透明物体の検出に特化したデータ拡張を提案し、国際会議に投稿した。さらに別の研究では、リアルタイムのエクササイズ映像認識のために、人体姿勢認識とConnectionist Temporal Classification (CTC) ロス関数を使用する手法を提案し、国際会議に投稿した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画通り本年度は不変性と、入力から得られる情報の空間の相補性について検討した。物体計数タスクでは生成画像からより現実の写真に見える画像への画像変換において、ＣＬＩＰに導かせることによって生成画像をより現実の写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、不変性と、入力から得られる情報の空間の相補性と汎化性能の説明可能性を検討した。このように、計画当初存在しなかったＣＬＩＰなどの有力モデルを適宜使用することにより研究を進めている。
今後の研究の推進方策	計画通り推進していく。

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Dataset-level Directed Image Translation for Cross-Domain Crowd Counting2023
- 著者名/発表者名
  Xin Tan and Hiroshi Ishikawa
- 雑誌名
  
  IEEE International Conference on Image Processing
  
  巻: 0 ページ: 0-0
- DOI
  10.1109/ICIP49359.2023.10222458
- 査読あり