Vision and language cross-modal for training conditional GANs with long-tail data.

研究課題

研究課題/領域番号	22K17947
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	東京大学
研究代表者	ヴォミンデュク東京大学, 大学院情報理工学系研究科, 特任助教 (40939906)
研究期間 (年度)	2022-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	2,600千円 (直接経費: 2,000千円、間接経費: 600千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	Vision and language / Novel object captioning / GANs / External knowledge / Bias mitigation / Story evaluation / Dataset / Conditional GANs / Long-tail data
研究開始時の研究の概要	1) Creating a dataset for our study because existing datasets are insufficient. 2) Constructing vision-language cross-modal by learning cross-modal similarity. 3) Learning data augmentation using vision-language cross-modal. 4) Incorporating the vision-language cross-modal into the conditional GANs.
研究成果の概要	本研究は、視覚と言語の空間間におけるクロスモダリティに関する知識を得ることを目的としています。私たちは、物体の視覚的外観と対応する言語記述を含む知識ベースを構築しました。収集された知識ベースが、見たことのない物体の記述能力を向上させ、未来を予測する能力を強化することを実証しました。また、限られたデータセットやオープンセットデータセットの下での生成的敵対的ネットワーク（GAN）のトレーニングおよびGANインバージョンの新しいトレーニングパラダイムを探求しました。
研究成果の学術的意義や社会的意義	We shows the efficacy of external knowledge base, helping AI in understanding up-to-date object knowledge and being able to predict the future given a sequence of sparsely temporally-ordered images. We showed the ability of generative AI when it is trained using limited number of training data.

報告書

(3件)

2023 実績報告書研究成果報告書 ( PDF )
2022 実施状況報告書

研究成果
(18件)

すべて 2024 2023 2022

すべて雑誌論文 (10件) (うち国際共著 10件、査読あり 10件、オープンアクセス 9件) 学会発表 (8件) (うち国際学会 8件)

[雑誌論文] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Harada Tatsuya、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 5311-5320
- DOI
  10.1109/wacv57701.2024.00524
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Liu Bei、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 5301-5310
- DOI
  10.1109/wacv57701.2024.00523
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 4932-4941
- DOI
  10.1109/wacv57701.2024.00487
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] EVCap: Retrieval-Augmented Image Captioning with External Visual--Name Memory for Open-World Comprehension2024
- 著者名/発表者名
  Li Jiaxuan、Vo Duc Minh、Sugimoto Akihiro, Nakayama Hideki
- 雑誌名
  
  2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: 1
- 関連する報告書
  2023 実績報告書
- 査読あり / 国際共著
[雑誌論文] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023
- 著者名/発表者名
  Li Jiaxuan、Vo Duc Minh、Nakayama Hideki
- 雑誌名
  
  2023 IEEE/CVF International Conference on Computer Vision (ICCV)
  
  巻: 1 ページ: 4901-4911
- DOI
  10.1109/iccv51070.2023.00454
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A-CAP: Anticipation Captioning with Commonsense Knowledge2023
- 著者名/発表者名
  Vo Duc Minh、Luong Quoc-An、Sugimoto Akihiro、Nakayama Hideki
- 雑誌名
  
  2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: 1 ページ: 10824-10833
- DOI
  10.1109/cvpr52729.2023.01042
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023
- 著者名/発表者名
  Rui Yang, Duc Minh Vo, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 4641-4650
- DOI
  10.1109/wacv56688.2023.00463
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022
- 著者名/発表者名
  Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama
- 雑誌名
  
  2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: - ページ: 17979-17987
- DOI
  10.1109/cvpr52688.2022.01747
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Stochastically Flipping Labels of Discriminator’s Outputs for Training Generative Adversarial Networks2022
- 著者名/発表者名
  Rui Yang, Duc Minh Vo, Hideki Nakayama
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 103644-103654
- DOI
  10.1109/access.2022.3210130
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022
- 著者名/発表者名
  Hong Chen, Duc Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing
  
  巻: - ページ: 1739-1753
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Harada Tatsuya、Nakayama Hideki
- 学会等名
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Liu Bei、Nakayama Hideki
- 学会等名
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024
- 著者名/発表者名
  Katsumata Kai、Vo Duc Minh、Nakayama Hideki
- 学会等名
  2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023
- 著者名/発表者名
  Li Jiaxuan、Vo Duc Minh、Nakayama Hideki
- 学会等名
  2023 IEEE/CVF International Conference on Computer Vision (ICCV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] A-CAP: Anticipation Captioning with Commonsense Knowledge2023
- 著者名/発表者名
  Vo Duc Minh、Luong Quoc-An、Sugimoto Akihiro、Nakayama Hideki
- 学会等名
  2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023
- 著者名/発表者名
  Yang Rui、Vo Duc Minh、Nakayama Hideki
- 学会等名
  2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022
- 著者名/発表者名
  Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama
- 学会等名
  2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022
- 著者名/発表者名
  Hong Chen, Duc Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama
- 学会等名
  2022 Conference on Empirical Methods in Natural Language Processing
- 関連する報告書
  2022 実施状況報告書
- 国際学会

Vision and language cross-modal for training conditional GANs with long-tail data.

研究代表者

ヴォ ミンデュク 東京大学, 大学院情報理工学系研究科, 特任助教 (40939906)

2,600千円 (直接経費: 2,000千円、間接経費: 600千円)

報告書

研究成果

[雑誌論文] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] EVCap: Retrieval-Augmented Image Captioning with External Visual--Name Memory for Open-World Comprehension2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Stochastically Flipping Labels of Discriminator’s Outputs for Training Generative Adversarial Networks2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled Data2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Revisiting Latent Space of GAN Inversion for Robust Real Image Editing2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Label Augmentation as Inter-class Data Augmentation for Conditional Image Synthesis with Imbalanced Data2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of Biases-Specific Experts2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022

著者名/発表者名

ヴォミンデュク東京大学, 大学院情報理工学系研究科, 特任助教 (40939906)