• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

画像空間と画像変換学習システムの構造

Research Project

Project/Area Number 20H00615
Research Category

Grant-in-Aid for Scientific Research (A)

Allocation TypeSingle-year Grants
Section一般
Review Section Medium-sized Section 61:Human informatics and related fields
Research InstitutionWaseda University

Principal Investigator

石川 博  早稲田大学, 理工学術院, 教授 (60381901)

Project Period (FY) 2020-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥44,200,000 (Direct Cost: ¥34,000,000、Indirect Cost: ¥10,200,000)
Fiscal Year 2024: ¥7,800,000 (Direct Cost: ¥6,000,000、Indirect Cost: ¥1,800,000)
Fiscal Year 2023: ¥12,350,000 (Direct Cost: ¥9,500,000、Indirect Cost: ¥2,850,000)
Fiscal Year 2022: ¥7,800,000 (Direct Cost: ¥6,000,000、Indirect Cost: ¥1,800,000)
Fiscal Year 2021: ¥11,180,000 (Direct Cost: ¥8,600,000、Indirect Cost: ¥2,580,000)
Fiscal Year 2020: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
KeywordsCNN
Outline of Research at the Start

コンピュータビジョンに飛躍的性能向上をもたらしたのは一般のニューラルネットワークではなく、変数に空間的な意味を与え、近傍や対称性の概念を導入した畳み込みニューラルネットワーク(CNN)である。最近の発見によれば、CNNは、あたかも自然画像を好むかのように、全く学習することなくある種の画像変換問題を解くことさえできる。これはCNNのネットワーク構造自体が、自然画像の統計をかなりの程度体現していることを示唆する。本研究ではその仕組みを解き明かすこと、及びより一般の対称性などの構造の組合せにより学習システムを統一的に設計する手法の開発を目標とする。

Outline of Annual Research Achievements

不変性と、入力から得られる情報の空間の相補性について検討した。VQAの一種としての物体計数タスクでは、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の生成画像をできるだけ現実の写真に似るように生成した。画像と言語を結びつけるモデルであるCLIPを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた論文を国際会議ICIPで発表した。この研究の継続として本年度は現実の写真と生成画像におけるモデルの性能のギャップを縮めるためにドメイン不変な特徴を抽出することをめざすドメイン汎化を検討することにした。また、画像の美的評価のタスクにおいても、人間による美的評価スコアを持つ訓練画像と美的評価をする自然言語の相関をCLIPにより得ることにより、与えられた画像について逆に自然言語との相関から美的評価をすることを検討した。さらに、CNNによる画像内の透明物体検出手法を検討した。屈折や反射など透明物体に特有な低レベルな特徴は周囲の環境によって影響されやすく、非常に認識しにくいため、既存の透明物体検出モデルは透明物体に由来する特徴ではなく、透明物体の周囲を囲むフレームなどのわかりやすい物体の特徴に頼って透明物体を検出しようとする。結果的にこのようなモデルはフレーム等に似た物体に簡単に騙される。そこで、透明物体の検出に特化したデータ拡張を提案し、国際会議に投稿した。さらに別の研究では、リアルタイムのエクササイズ映像認識のために、人体姿勢認識とConnectionist Temporal Classification (CTC) ロス関数を使用する手法を提案し、国際会議に投稿した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

計画通り本年度は不変性と、入力から得られる情報の空間の相補性について検討した。物体計数タスクでは生成画像からより現実の写真に見える画像への画像変換において、CLIPに導かせることによって生成画像をより現実の写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、不変性と、入力から得られる情報の空間の相補性と汎化性能の説明可能性を検討した。このように、計画当初存在しなかったCLIPなどの有力モデルを適宜使用することにより研究を進めている。

Strategy for Future Research Activity

計画通り推進していく。

Report

(5 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • 2021 Annual Research Report
  • 2020 Comments on the Screening Results   Annual Research Report
  • Research Products

    (3 results)

All 2023 2021 2020

All Journal Article (3 results) (of which Peer Reviewed: 3 results)

  • [Journal Article] Dataset-level Directed Image Translation for Cross-Domain Crowd Counting2023

    • Author(s)
      Xin Tan and Hiroshi Ishikawa
    • Journal Title

      IEEE International Conference on Image Processing

      Volume: 0 Pages: 0-0

    • DOI

      10.1109/icip49359.2023.10222458

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Differentiable rendering-based pose-conditioned human image generation2021

    • Author(s)
      Yusuke Horiuchi, Edgar Simo-Serra, Satoshi Iizuka, Hiroshi Ishikawa
    • Journal Title

      Proceedings - 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2021

      Volume: 1 Pages: 3916-3920

    • DOI

      10.1109/cvprw53098.2021.00437

    • Related Report
      2021 Annual Research Report
    • Peer Reviewed
  • [Journal Article] P2Net: A Post-Processing Network for Refining Semantic Segmentation of LiDAR Point Cloud based on Consistency of Consecutive Frames2020

    • Author(s)
      Yutaka Momma, Weimin Wang, Edgar Simo-Serra, Satoshi Iizuka, Ryosuke Nakamura, and Hiroshi Ishikawa
    • Journal Title

      Proc. IEEE International Conference on Systems, Man, and Cybernetics (SMC)

      Volume: 1 Pages: 4110-4115

    • DOI

      10.1109/smc42975.2020.9283329

    • Related Report
      2020 Annual Research Report
    • Peer Reviewed

URL: 

Published: 2020-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi