2022 Fiscal Year Research-status Report

Task Fusion Learning in Deep Learning

Research Project

Project/Area Number	22K19808
Research Institution	The University of Electro-Communications
Principal Investigator	柳井啓司電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
Project Period (FY)	2022-06-30 – 2024-03-31
Keywords	連続学習 / Vision Transformer
Outline of Annual Research Achievements	本研究では，単一のNeural Networkに複数のタスクのための機能を同時に学習させ，学習した独立の機能の組み合わせ・重ね合わせによって，事前に学習した個別の単一機能とは異なる，新しい機能を実現し，Neural Networkがより人間の脳に近い汎用的な能力を持っていることを実証することを目的とする．また，複数機能の組み合わせによる実用的な応用についても検討することが当初の目的である．本年度は初年度であるため，その基礎的な研究として，Vision Transformerに対する連続学習に関する研究を行った．この研究では，1つのVision Transformerに複数の分類タスクを学習させるため，タスクに応じたごく少数のパラメータ(1タスクに付き全体の0.5%程度)を導入することで，各タスクにネットワークを適応させるように学習させることを可能とした．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 1年目はVision Transformerの連続学習の研究を行い一定の成果をあげることができた．
Strategy for Future Research Activity	2年目は画像変換の様に複数のタスクを融合な可能なタスクを想定して，タスク融合学習の実現に向けて研究を進める予定である．具体的には，領域分割，超解像，白黒画像のカラー化，インペインティング，スタイル変換，画像ドメイン変換，画像変換タスクなど，多様な画像変換タスクに関して，同時学習および組合せタスクの学習実験を行う予定である．事前学習大規模画像言語モデル，例えばCLIPやStable Diffusionをタスク融合への利用可能性についても合わせて検討する予定である．

Research Products
(14 results)

All 2023 2022

All Journal Article (2 results) Presentation (12 results) (of which Int'l Joint Research: 12 results)

[Journal Article] Material Translation Based on Neural Style Transfer with Ideal Style Image Retrieval2022
- Author(s)
  Benitez-Garcia Gibran、Takahashi Hiroki、Yanai Keiji
- Journal Title
  
  Sensors
  
  Volume: 22 Pages: 7317～7317
- DOI
  10.3390/s22197317
[Journal Article] FASSD-Net: Fast and Accurate Real-Time Semantic Segmentation for Embedded Systems2022
- Author(s)
  Rosas-Arias Leonel、Benitez-Garcia Gibran、Portillo-Portillo Jose、Olivares-Mercado Jesus、Sanchez-Perez Gabriel、Yanai Keiji
- Journal Title
  
  IEEE Transactions on Intelligent Transportation Systems
  
  Volume: 23 Pages: 14349～14360
- DOI
  10.1109/TITS.2021.3127553
[Presentation] Patent Image RetrievalUsing Cross-entropy-based Metric Learning2023
- Author(s)
  Kotaro Higuchi,Yuma Honbu,Keiji Yanai
- Organizer
  Proc.of International Workshop on Frontiers of Computer Vision (IW-FCV),
- Int'l Joint Research
[Presentation] Virtual Try-On Considering Temporal Consistency for Videoconferencing.2023
- Author(s)
  Daiki Shimizu,Keiji Yanai
- Organizer
  Proc. of the International Multimedia Modeling Conference (MMM)
- Int'l Joint Research
[Presentation] Transformer-Based Cross-Modal Recipe Embeddings with Large Batch Training.2023
- Author(s)
  Jing Yang,Junwen Chen,Keiji Yanai
- Organizer
  Proc. of the International Multimedia Modeling Conference (MMM)
- Int'l Joint Research
[Presentation] Zero-shot Font Style Transfer with a Differentiable Renderer2022
- Author(s)
  Kota Izumi,Keiji Yanai
- Organizer
  Proc. of ACM Multimedia Asia
- Int'l Joint Research
[Presentation] Parallel Queries for Human-Object Interaction Detection2022
- Author(s)
  Junwen Chen,Keiji Yanai
- Organizer
  Proc. of ACM Multimedia Asia
- Int'l Joint Research
[Presentation] SetMealAsYouLike: Sketch-based Set Meal Image Synthesis with Plate Annotations2022
- Author(s)
  Yuma Honbu,Keiji Yanai
- Organizer
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- Int'l Joint Research
[Presentation] DepthGrillCam: A Mobile Application for Real-time Eating Action Recording Using RGB-D Images2022
- Author(s)
  Kento Adachi,Keiji Yanai
- Organizer
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- Int'l Joint Research
[Presentation] Text-based Image Editing for Food Images with CLIP2022
- Author(s)
  Kohei Yamamoto,Keiji Yanai
- Organizer
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- Int'l Joint Research
[Presentation] Real Scale 3D Reconstruction of a Dish and a Plate using Implicit Function and a Single RGB-D Image2022
- Author(s)
  Shu Naritomi,Keiji Yanai
- Organizer
  Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
- Int'l Joint Research
[Presentation] Continual Learning in Vision Transformer2022
- Author(s)
  Mana Takeda,Keiji Yanai
- Organizer
  Proc.of IEEE International Conference on Image Processing (ICIP)
- Int'l Joint Research
[Presentation] StyleGAN-based CLIP-guided Image Shape Manipulation2022
- Author(s)
  Yuchen Qian,Kohei Yamamoto,Keiji Yanai
- Organizer
  Proc.of International Conference on Content-based Multimedia Indexing (CBMI)
- Int'l Joint Research
[Presentation] Unseen Food Segmentation2022
- Author(s)
  Yuma Honbu,Keiji Yanai
- Organizer
  Proc.of ACM International Conference on Multimedia Retrieval (ICMR)
- Int'l Joint Research

2022 Fiscal Year Research-status Report

Task Fusion Learning in Deep Learning

Principal Investigator

柳井 啓司 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Material Translation Based on Neural Style Transfer with Ideal Style Image Retrieval2022

Author(s)

Journal Title

DOI

[Journal Article] FASSD-Net: Fast and Accurate Real-Time Semantic Segmentation for Embedded Systems2022

Author(s)

Journal Title

DOI

[Presentation] Patent Image RetrievalUsing Cross-entropy-based Metric Learning2023

Author(s)

Organizer

[Presentation] Virtual Try-On Considering Temporal Consistency for Videoconferencing.2023

Author(s)

Organizer

[Presentation] Transformer-Based Cross-Modal Recipe Embeddings with Large Batch Training.2023

Author(s)

Organizer

[Presentation] Zero-shot Font Style Transfer with a Differentiable Renderer2022

Author(s)

Organizer

[Presentation] Parallel Queries for Human-Object Interaction Detection2022

Author(s)

Organizer

[Presentation] SetMealAsYouLike: Sketch-based Set Meal Image Synthesis with Plate Annotations2022

Author(s)

Organizer

[Presentation] DepthGrillCam: A Mobile Application for Real-time Eating Action Recording Using RGB-D Images2022

Author(s)

Organizer

[Presentation] Text-based Image Editing for Food Images with CLIP2022

Author(s)

Organizer

[Presentation] Real Scale 3D Reconstruction of a Dish and a Plate using Implicit Function and a Single RGB-D Image2022

Author(s)

Organizer

[Presentation] Continual Learning in Vision Transformer2022

Author(s)

Organizer

[Presentation] StyleGAN-based CLIP-guided Image Shape Manipulation2022

Author(s)

Organizer

[Presentation] Unseen Food Segmentation2022

Author(s)

Organizer

柳井啓司電気通信大学, 大学院情報理工学研究科, 教授 (20301179)