機能の重ね合せを実現する深層学習におけるタスク融合学習

研究課題

研究課題/領域番号	22K19808
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分61:人間情報学およびその関連分野
研究機関	電気通信大学
研究代表者	柳井啓司電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
研究期間 (年度)	2022-06-30 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2023年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円) 2022年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
キーワード	深層学習 / 継続学習 / 大規模モデル / 視覚言語モデル / 連続学習 / Vision Transformer / Stable Diffusion / Zero-shot segmentation / マルチタスク学習
研究開始時の研究の概要	本研究では，単一のCNN （Convolutional Neural Network, 畳み込みネットワーク）に複数のタスクのための機能を同時に学習させ，学習した独立の機能の組み合わせ・重ね合わせによって，事前に学習した個別の単一機能とは異なる，新しい機能を実現し，Neural Networkがより人間の脳に近い汎用的な能力を持っていることを実証することを目的とする．また，複数機能の組み合わせによる実用的な応用についても検討する．
研究成果の概要	本研究では，単一のニューラルネットワークに複数のタスクのための機能を同時に学習させ，学習した独立の機能の組み合わせ・重ね合わせによって，事前に学習した個別の単一機能とは異なる，新しい機能を実現することを目的として研究を行った．具体的には(1)条件信号による画像変換タスクの重ね合わせ，(2)Vision Transformerの継続学習，(3)Stable Diffusionによる学習なしでの任意の言葉に対する領域分割の実現，について成果を得ることができた．
研究成果の学術的意義や社会的意義	本研究によって，ニューラルネットワークには，異なる機能の同時学習に関してより柔軟に対応できる能力が備わっていることが示された．また，10億スケールの大規模画像言語ペアデータで学習されたテキストからの画像生成モデルには，テキストと視覚概念をピクセルレベルで対応付ける能力が備わっていることが示され，追加の学習なしで多様なタスクに活用できる可能性が大いに高まったと言える．今後は，この学習なしの能力を多様なタスクに対して実証し，それらの複合的な処理も学習無しで実現することを追求することで，大規模視覚言語モデルの応用可能性を大いに広げることが可能となる．

報告書

(3件)

2023 実績報告書研究成果報告書 ( PDF )
2022 実施状況報告書

研究成果
(26件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (4件) (うち国際共著 1件、査読あり 4件、オープンアクセス 4件) 学会発表 (22件) (うち国際学会 19件、招待講演 1件)

[雑誌論文] Multi-Style Shape Matching GAN for Text Images2024
- 著者名/発表者名
  YUAN Honghui、YANAI Keiji
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E107.D 号: 4 ページ: 505-514
- DOI
  10.1587/transinf.2023IHP0010
- ISSN
  0916-8532, 1745-1361
- 年月日
  2024-04-01
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Patent image retrieval using transformer-based deep metric learning2023
- 著者名/発表者名
  Higuchi Kotaro、Yanai Keiji
- 雑誌名
  
  World Patent Information
  
  巻: 74 ページ: 102217-102217
- DOI
  10.1016/j.wpi.2023.102217
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Material Translation Based on Neural Style Transfer with Ideal Style Image Retrieval2022
- 著者名/発表者名
  Benitez-Garcia Gibran、Takahashi Hiroki、Yanai Keiji
- 雑誌名
  
  Sensors
  
  巻: 22 号: 19 ページ: 7317-7317
- DOI
  10.3390/s22197317
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] FASSD-Net: Fast and Accurate Real-Time Semantic Segmentation for Embedded Systems2021
- 著者名/発表者名
  Rosas-Arias Leonel、Benitez-Garcia Gibran、Portillo-Portillo Jose、Olivares-Mercado Jesus、Sanchez-Perez Gabriel、Yanai Keiji
- 雑誌名
  
  IEEE Transactions on Intelligent Transportation Systems
  
  巻: - 号: 9 ページ: 1-12
- DOI
  10.1109/tits.2021.3127553
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Training-free Region Prediction with Stable Diffusion,2024
- 著者名/発表者名
  Yuma Honbu and Keiji Yanai
- 学会等名
  International Conference on MultimeMedia Modeling (MMM)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Training-Free Region Prediction with Stable Diffusion.2024
- 著者名/発表者名
  Yuma Honbu and Keiji Yanai
- 学会等名
  International Multimedia Modeling Conference (MMM)
- 関連する報告書
  2023 実績報告書
[学会発表] 生成AI技術の基礎と展望2024
- 著者名/発表者名
  柳井啓司
- 学会等名
  SID日本支部講演会「生成AIとメタバースが開く社会に向けたディスプレイ技術と課題」
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] Mask-based Food Image Synthesis with Cross-Modal Recipe Embeddings2023
- 著者名/発表者名
  Zhongtao Chen, Yuma Hombu and Keiji Yanai
- 学会等名
  ACM Multimedia Asia
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] VQ-VDM: Video Diffusion Models with 3D VQGAN2023
- 著者名/発表者名
  Ryota Kaji and Keiji Yanai
- 学会等名
  ACM Multimedia Asia
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Contextual Associated Triplet Queries for Panoptic Scene Graph Generation2023
- 著者名/発表者名
  Jingbin Xu, Junwen Chen and Keiji Yanai
- 学会等名
  ACM Multimedia Asia
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] QAHOI: Query-Based Anchors for Human-Object Interaction Detection2023
- 著者名/発表者名
  Junwen Chen and Keiji Yanai
- 学会等名
  International Conference on Machine Vision Applications (MVA)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] CalorieCam360: Simultaneous Eating Action Recognition of Multiple People Using Omnidirectional Camera2023
- 著者名/発表者名
  Kento Terauchi and Keiji Yanai
- 学会等名
  ACM International Conference on Multimedia Retrieval (ICMR)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] HowToEat: Exploring Human Object Interaction and Eating Action in Eating Scenarios2023
- 著者名/発表者名
  Yingcheng Wang, Junwen Chen and Keiji Yanai
- 学会等名
  ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] StableSeg: Stable Diffusionによるゼロショット領域分割2023
- 著者名/発表者名
  本部勇真, 山口廉斗, 柳井啓司
- 学会等名
  画像の認識・理解シンポジウム (MIRU)
- 関連する報告書
  2023 実績報告書
[学会発表] Patent Image RetrievalUsing Cross-entropy-based Metric Learning2023
- 著者名/発表者名
  Kotaro Higuchi,Yuma Honbu,Keiji Yanai
- 学会等名
  Proc.of International Workshop on Frontiers of Computer Vision (IW-FCV),
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Virtual Try-On Considering Temporal Consistency for Videoconferencing.2023
- 著者名/発表者名
  Daiki Shimizu,Keiji Yanai
- 学会等名
  Proc. of the International Multimedia Modeling Conference (MMM)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Transformer-Based Cross-Modal Recipe Embeddings with Large Batch Training.2023
- 著者名/発表者名
  Jing Yang,Junwen Chen,Keiji Yanai
- 学会等名
  Proc. of the International Multimedia Modeling Conference (MMM)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Zero-shot Font Style Transfer with a Differentiable Renderer2022
- 著者名/発表者名
  Kota Izumi,Keiji Yanai
- 学会等名
  Proc. of ACM Multimedia Asia
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Parallel Queries for Human-Object Interaction Detection2022
- 著者名/発表者名
  Junwen Chen,Keiji Yanai
- 学会等名
  Proc. of ACM Multimedia Asia
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] SetMealAsYouLike: Sketch-based Set Meal Image Synthesis with Plate Annotations2022
- 著者名/発表者名
  Yuma Honbu,Keiji Yanai
- 学会等名
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] DepthGrillCam: A Mobile Application for Real-time Eating Action Recording Using RGB-D Images2022
- 著者名/発表者名
  Kento Adachi,Keiji Yanai
- 学会等名
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Text-based Image Editing for Food Images with CLIP2022
- 著者名/発表者名
  Kohei Yamamoto,Keiji Yanai
- 学会等名
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Real Scale 3D Reconstruction of a Dish and a Plate using Implicit Function and a Single RGB-D Image2022
- 著者名/発表者名
  Shu Naritomi,Keiji Yanai
- 学会等名
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Continual Learning in Vision Transformer2022
- 著者名/発表者名
  Mana Takeda,Keiji Yanai
- 学会等名
  Proc.of IEEE International Conference on Image Processing (ICIP)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] StyleGAN-based CLIP-guided Image Shape Manipulation2022
- 著者名/発表者名
  Yuchen Qian,Kohei Yamamoto,Keiji Yanai
- 学会等名
  Proc.of International Conference on Content-based Multimedia Indexing (CBMI)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Unseen Food Segmentation2022
- 著者名/発表者名
  Yuma Honbu,Keiji Yanai
- 学会等名
  Proc.of ACM International Conference on Multimedia Retrieval (ICMR)
- 関連する報告書
  2022 実施状況報告書
- 国際学会

機能の重ね合せを実現する深層学習におけるタスク融合学習

研究代表者

柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)

6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)

報告書

研究成果

[雑誌論文] Multi-Style Shape Matching GAN for Text Images2024

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Patent image retrieval using transformer-based deep metric learning2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Material Translation Based on Neural Style Transfer with Ideal Style Image Retrieval2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] FASSD-Net: Fast and Accurate Real-Time Semantic Segmentation for Embedded Systems2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Training-free Region Prediction with Stable Diffusion,2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Training-Free Region Prediction with Stable Diffusion.2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 生成AI技術の基礎と展望2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Mask-based Food Image Synthesis with Cross-Modal Recipe Embeddings2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] VQ-VDM: Video Diffusion Models with 3D VQGAN2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Contextual Associated Triplet Queries for Panoptic Scene Graph Generation2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] QAHOI: Query-Based Anchors for Human-Object Interaction Detection2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] CalorieCam360: Simultaneous Eating Action Recognition of Multiple People Using Omnidirectional Camera2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] HowToEat: Exploring Human Object Interaction and Eating Action in Eating Scenarios2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] StableSeg: Stable Diffusionによるゼロショット領域分割2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Patent Image RetrievalUsing Cross-entropy-based Metric Learning2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Virtual Try-On Considering Temporal Consistency for Videoconferencing.2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformer-Based Cross-Modal Recipe Embeddings with Large Batch Training.2023

著者名/発表者名

学会等名

関連する報告書

柳井啓司電気通信大学, 大学院情報理工学研究科, 教授 (20301179)