画像空間と画像変換学習システムの構造

研究課題

研究課題/領域番号	20H00615
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	早稲田大学
研究代表者	石川博早稲田大学, 理工学術院, 教授 (60381901)
研究期間 (年度)	2020-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	44,200千円 (直接経費: 34,000千円、間接経費: 10,200千円) 2024年度: 7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円) 2023年度: 12,350千円 (直接経費: 9,500千円、間接経費: 2,850千円) 2022年度: 7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円) 2021年度: 11,180千円 (直接経費: 8,600千円、間接経費: 2,580千円) 2020年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
キーワード	CNN
研究開始時の研究の概要	コンピュータビジョンに飛躍的性能向上をもたらしたのは一般のニューラルネットワークではなく、変数に空間的な意味を与え、近傍や対称性の概念を導入した畳み込みニューラルネットワーク(CNN)である。最近の発見によれば、CNNは、あたかも自然画像を好むかのように、全く学習することなくある種の画像変換問題を解くことさえできる。これはCNNのネットワーク構造自体が、自然画像の統計をかなりの程度体現していることを示唆する。本研究ではその仕組みを解き明かすこと、及びより一般の対称性などの構造の組合せにより学習システムを統一的に設計する手法の開発を目標とする。
研究実績の概要	不変性と、入力から得られる情報の空間の相補性について検討した。VQAの一種としての物体計数タスクでは、急速に重要性を増している言語モデルと画像との連携を行うことにより、モデルを訓練するための学習データを生成することをめざして、数のわかっている人間の生成画像をできるだけ現実の写真に似るように生成した。画像と言語を結びつけるモデルであるＣＬＩＰを使用し、それに導かせることによって合成された画像をより写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、その有効性を確かめた論文を国際会議ICIPで発表した。この研究の継続として本年度は現実の写真と生成画像におけるモデルの性能のギャップを縮めるためにドメイン不変な特徴を抽出することをめざすドメイン汎化を検討することにした。また、画像の美的評価のタスクにおいても、人間による美的評価スコアを持つ訓練画像と美的評価をする自然言語の相関をＣＬＩＰにより得ることにより、与えられた画像について逆に自然言語との相関から美的評価をすることを検討した。さらに、CNNによる画像内の透明物体検出手法を検討した。屈折や反射など透明物体に特有な低レベルな特徴は周囲の環境によって影響されやすく、非常に認識しにくいため、既存の透明物体検出モデルは透明物体に由来する特徴ではなく、透明物体の周囲を囲むフレームなどのわかりやすい物体の特徴に頼って透明物体を検出しようとする。結果的にこのようなモデルはフレーム等に似た物体に簡単に騙される。そこで、透明物体の検出に特化したデータ拡張を提案し、国際会議に投稿した。さらに別の研究では、リアルタイムのエクササイズ映像認識のために、人体姿勢認識とConnectionist Temporal Classification (CTC) ロス関数を使用する手法を提案し、国際会議に投稿した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画通り本年度は不変性と、入力から得られる情報の空間の相補性について検討した。物体計数タスクでは生成画像からより現実の写真に見える画像への画像変換において、ＣＬＩＰに導かせることによって生成画像をより現実の写真に近づけることにより、実際の画像中の物体を計数できるモデルを訓練し、不変性と、入力から得られる情報の空間の相補性と汎化性能の説明可能性を検討した。このように、計画当初存在しなかったＣＬＩＰなどの有力モデルを適宜使用することにより研究を進めている。
今後の研究の推進方策	計画通り推進していく。

報告書

(5件)

研究成果
(3件)

すべて 2023 2021 2020

すべて雑誌論文 (3件) (うち査読あり 3件)

[雑誌論文] Dataset-level Directed Image Translation for Cross-Domain Crowd Counting2023
- 著者名/発表者名
  Xin Tan and Hiroshi Ishikawa
- 雑誌名
  
  IEEE International Conference on Image Processing
  
  巻: 0 ページ: 0-0
- DOI
  10.1109/icip49359.2023.10222458
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Differentiable rendering-based pose-conditioned human image generation2021
- 著者名/発表者名
  Yusuke Horiuchi, Edgar Simo-Serra, Satoshi Iizuka, Hiroshi Ishikawa
- 雑誌名
  
  Proceedings - 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2021
  
  巻: 1 ページ: 3916-3920
- DOI
  10.1109/cvprw53098.2021.00437
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] P2Net: A Post-Processing Network for Refining Semantic Segmentation of LiDAR Point Cloud based on Consistency of Consecutive Frames2020
- 著者名/発表者名
  Yutaka Momma, Weimin Wang, Edgar Simo-Serra, Satoshi Iizuka, Ryosuke Nakamura, and Hiroshi Ishikawa
- 雑誌名
  
  Proc. IEEE International Conference on Systems, Man, and Cybernetics (SMC)
  
  巻: 1 ページ: 4110-4115
- DOI
  10.1109/smc42975.2020.9283329
- 関連する報告書
  2020 実績報告書
- 査読あり

画像空間と画像変換学習システムの構造

研究代表者

石川 博 早稲田大学, 理工学術院, 教授 (60381901)

44,200千円 (直接経費: 34,000千円、間接経費: 10,200千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Dataset-level Directed Image Translation for Cross-Domain Crowd Counting2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Differentiable rendering-based pose-conditioned human image generation2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] P2Net: A Post-Processing Network for Refining Semantic Segmentation of LiDAR Point Cloud based on Consistency of Consecutive Frames2020

著者名/発表者名

雑誌名

DOI

関連する報告書

石川博早稲田大学, 理工学術院, 教授 (60381901)