2022 年度実績報告書

言語概念のマルチメディアへのグラウンディングに基づく世界知識構築

研究課題

研究課題/領域番号	19H04166
研究機関	東京大学
研究代表者	中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	自然言語処理 / 画像認識 / 知識グラフ / ゼロショット認識 / 未来予測 / マルチモーダル / 知識獲得
研究実績の概要	１．2020年度の成果である[Chen+, AAAI'21]を拡張し、マルチメディアから時間的なダイナミクスを内包する知識グラフを抽出する手法を開発した。まず、画像時系列から物体・イベントなどのコンセプトを抽出し、その時空間的な共起や遷移関係をグラフ構造の形で表現する。さらに、ここへ外部の大規模知識グラフ(ConceptNet)を接続し、トップダウンな常識的知識を加えた広範な知識グラフを構築することができる。具体的な応用タスクとして、与えられた画像時系列の未来の状況を予測して文章で表す予知キャプショニングを提案し、これを実現する手法を開発した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2023へ採択された。２．辞書中のテキストデータ(Wiktionary)から特徴抽出を行った単語概念と画像領域特徴をアラインメントし、共通の埋め込み空間を学習する手法を提案した。その具体的な応用として、画像中の未知物体に対し埋め込み空間上の最近傍の単語を検索することで、ゼロショットの画像キャプショニングを高い精度で実現できることを示した。本手法はコンピュータビジョンの最難関国際会議であるCVPR2022で発表された。３．２の手法では、画像特徴とテキスト特徴のアラインメントは小規模なキャプショニングデータセットで行われており、ゼロショット認識のための外部情報リソースはあくまでテキスト特徴のみで表現されていた。そのため、より画像と親和性が高く汎用的な情報リソースを得ることを目的とし、辞書中のテキストデータに加え画像情報を用いた学習によって外部知識自体をマルチモーダルな空間上で表現するように手法の拡張を行った。このようにして得られる埋め込み空間は、ゼロショット認識の改善はもちろん、概念が為す知識グラフを構築する上で一般的に有効であり、幅広い応用につながる基盤を為すと期待できる。
現在までの達成度 (段落)	令和4年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和4年度が最終年度であるため、記入しない。

研究成果
(27件)

すべて 2023 2022 その他

すべて国際共同研究 (2件) 雑誌論文 (12件) (うち国際共著 3件、査読あり 12件、オープンアクセス 10件) 学会発表 (12件) (うち国際学会 11件、招待講演 1件) 図書 (1件)

[国際共同研究] University of California, Los Angeles/Amazon(米国)
- 国名
  米国
- 外国機関名
  University of California, Los Angeles/Amazon
[国際共同研究] National Yang Ming Chiao Tung University/Academia Sinica/National Taiwan University(その他の国・地域)
- 国名
  その他の国・地域
- 外国機関名
  National Yang Ming Chiao Tung University/Academia Sinica/National Taiwan University
[雑誌論文] A-CAP: Anticipation Captioning with Commonsense Knowledge2023
- 著者名/発表者名
  Duc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: - ページ: -
- 査読あり / オープンアクセス
[雑誌論文] LED: A Dataset for Life Event Extraction from Dialogs2023
- 著者名/発表者名
  Yi-Pei Chen, An-Zi Yen, Hen-Hsen Huang, Hideki Nakayama, Hsin-Hsi Chen
- 雑誌名
  
  Findings of the Association for Computational Linguistics: EACL 2023
  
  巻: - ページ: 384-398
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023
- 著者名/発表者名
  Rui Yang, Duc Minh Vo, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
  
  巻: - ページ: 4641-4650
- DOI
  10.1109/WACV56688.2023.00463
- 査読あり / オープンアクセス
[雑誌論文] Character-Centric Story Visualization via Visual Planning and Token Alignment2022
- 著者名/発表者名
  Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama and Nanyun Peng
- 雑誌名
  
  Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
  
  巻: - ページ: 8259-8272
- 査読あり / オープンアクセス
[雑誌論文] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022
- 著者名/発表者名
  Hong Chen, Duc Minh Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
  
  巻: - ページ: 1739-1753
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Weakly Supervised Formula Learner for Solving Mathematical Problems2022
- 著者名/発表者名
  Yuxuan Wu, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 29th International Conference on Computational Linguistics (COLING)
  
  巻: - ページ: 1743-1752
- 査読あり / オープンアクセス
[雑誌論文] Neural Networks in a Product of Hyperbolic Spaces2022
- 著者名/発表者名
  Jun Takeuchi, Noriki Nishida, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Student Research Workshop
  
  巻: - ページ: 211-221
- 査読あり / オープンアクセス
[雑誌論文] Improving Noised Gradient Penalty with Synchronized Activation Function for Generative Adversarial Networks2022
- 著者名/発表者名
  Rui Yang, Raphael Shu, Hideki Nakayama
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E105-D ページ: 1537-1545
- DOI
  10.1587/transinf.2022EDP7019
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] DJMix: Unsupervised Task-agnostic Image Augmentation for Improving Robustness of Convolutional Neural Networks"2022
- 著者名/発表者名
  Ryuichiro Hataya, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 International Joint Conference on Neural Networks (IJCNN)
  
  巻: - ページ: 1-8
- DOI
  10.1109/IJCNN55064.2022.9892068
- 査読あり
[雑誌論文] Pixel to Binary Embedding Towards Robustness for CNNs2022
- 著者名/発表者名
  Ikki Kishida, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 26th International Conference on Pattern Recognition (ICPR)
  
  巻: - ページ: 2279-2285
- DOI
  10.1109/ICPR56361.2022.9956572
- 査読あり
[雑誌論文] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022
- 著者名/発表者名
  Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: - ページ: 17979-17987
- DOI
  10.1109/CVPR52688.2022.01747
- 査読あり / オープンアクセス
[雑誌論文] OSSGAN: Open-Set Semi-Supervised Image Generation2022
- 著者名/発表者名
  Kai Katsumata, Duc Minh Vo, Hideki Nakayama
- 雑誌名
  
  Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  
  巻: - ページ: 11175-11183
- DOI
  10.1109/CVPR52688.2022.01090
- 査読あり / オープンアクセス
[学会発表] A-CAP: Anticipation Captioning with Commonsense Knowledge2023
- 著者名/発表者名
  Duc Minh Vo, Quoc-An Luong, Akihiro Sugimoto, Hideki Nakayama
- 学会等名
  The 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 国際学会
[学会発表] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023
- 著者名/発表者名
  Rui Yang, Duc Minh Vo, Hideki Nakayama
- 学会等名
  The 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
- 国際学会
[学会発表] Character-Centric Story Visualization via Visual Planning and Token Alignment2022
- 著者名/発表者名
  Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama and Nanyun Peng
- 学会等名
  The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
- 国際学会
[学会発表] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022
- 著者名/発表者名
  Hong Chen, Duc Minh Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama
- 学会等名
  The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
- 国際学会
[学会発表] Weakly Supervised Formula Learner for Solving Mathematical Problems2022
- 著者名/発表者名
  Yuxuan Wu, Hideki Nakayama
- 学会等名
  The 29th International Conference on Computational Linguistics (COLING)
- 国際学会
[学会発表] Neural Networks in a Product of Hyperbolic Spaces2022
- 著者名/発表者名
  Jun Takeuchi, Noriki Nishida, Hideki Nakayama
- 学会等名
  The 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Student Research Workshop
- 国際学会
[学会発表] DJMix: Unsupervised Task-agnostic Image Augmentation for Improving Robustness of Convolutional Neural Networks"2022
- 著者名/発表者名
  Ryuichiro Hataya, Hideki Nakayama
- 学会等名
  The 2022 International Joint Conference on Neural Networks (IJCNN)
- 国際学会
[学会発表] Pixel to Binary Embedding Towards Robustness for CNNs2022
- 著者名/発表者名
  Ikki Kishida, Hideki Nakayama
- 学会等名
  The 26th International Conference on Pattern Recognition (ICPR)
- 国際学会
[学会発表] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022
- 著者名/発表者名
  Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama
- 学会等名
  The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 国際学会
[学会発表] OSSGAN: Open-Set Semi-Supervised Image Generation2022
- 著者名/発表者名
  Kai Katsumata, Duc Minh Vo, Hideki Nakayama
- 学会等名
  The 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 国際学会
[学会発表] ラベルノイズ付きオープンセット半教師あり画像生成2022
- 著者名/発表者名
  勝又海, Duc Minh Vo, 原田達也, 中山英樹
- 学会等名
  第25回画像の認識・理解シンポジウム
[学会発表] Incorporating External Knowledge for Vision and Language Systems2022
- 著者名/発表者名
  Hideki Nakayama
- 学会等名
  2nd Workshop on Trends and Advances in Machine Learning and Automated Reasoning for Intelligent Robots and Systems (in conjunction with IROS 2022)
- 国際学会 / 招待講演
[図書] 深層学習からマルチモーダル情報処理へ2022
- 著者名/発表者名
  中山英樹、二反田篤史、田村晃裕、井上中順、牛久祥孝
- 総ページ数
  248
- 出版者
  サイエンス社
- ISBN
  978-4-7819-1554-8

2022 年度 実績報告書

言語概念のマルチメディアへのグラウンディングに基づく世界知識構築

研究代表者

中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)

研究成果

[国際共同研究] University of California, Los Angeles/Amazon(米国)

国名

外国機関名

[国際共同研究] National Yang Ming Chiao Tung University/Academia Sinica/National Taiwan University(その他の国・地域)

国名

外国機関名

[雑誌論文] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

著者名/発表者名

雑誌名

[雑誌論文] LED: A Dataset for Life Event Extraction from Dialogs2023

著者名/発表者名

雑誌名

[雑誌論文] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Character-Centric Story Visualization via Visual Planning and Token Alignment2022

著者名/発表者名

雑誌名

[雑誌論文] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022

著者名/発表者名

雑誌名

[雑誌論文] Weakly Supervised Formula Learner for Solving Mathematical Problems2022

著者名/発表者名

雑誌名

[雑誌論文] Neural Networks in a Product of Hyperbolic Spaces2022

著者名/発表者名

雑誌名

[雑誌論文] Improving Noised Gradient Penalty with Synchronized Activation Function for Generative Adversarial Networks2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] DJMix: Unsupervised Task-agnostic Image Augmentation for Improving Robustness of Convolutional Neural Networks"2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Pixel to Binary Embedding Towards Robustness for CNNs2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] OSSGAN: Open-Set Semi-Supervised Image Generation2022

著者名/発表者名

雑誌名

DOI

[学会発表] A-CAP: Anticipation Captioning with Commonsense Knowledge2023

著者名/発表者名

学会等名

[学会発表] Indirect Adversarial Losses via an Intermediate Distribution for Training GANs2023

著者名/発表者名

学会等名

[学会発表] Character-Centric Story Visualization via Visual Planning and Token Alignment2022

著者名/発表者名

学会等名

[学会発表] StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning2022

著者名/発表者名

学会等名

[学会発表] Weakly Supervised Formula Learner for Solving Mathematical Problems2022

著者名/発表者名

学会等名

[学会発表] Neural Networks in a Product of Hyperbolic Spaces2022

著者名/発表者名

学会等名

[学会発表] DJMix: Unsupervised Task-agnostic Image Augmentation for Improving Robustness of Convolutional Neural Networks"2022

著者名/発表者名

学会等名

[学会発表] Pixel to Binary Embedding Towards Robustness for CNNs2022

著者名/発表者名

学会等名

[学会発表] NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge2022

著者名/発表者名

学会等名

2022 年度実績報告書

中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)