• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

質感と形状の分離による奥深質感画像分析・生成のためのマルチモーダル深層学習モデル

公募研究

研究領域実世界の奥深い質感情報の分析と生成
研究課題/領域番号 21H05812
研究種目

学術変革領域研究(A)

配分区分補助金
審査区分 学術変革領域研究区分(Ⅳ)
研究機関電気通信大学

研究代表者

柳井 啓司  電気通信大学, 大学院情報理工学研究科, 教授 (20301179)

研究期間 (年度) 2021-09-10 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
7,800千円 (直接経費: 6,000千円、間接経費: 1,800千円)
2022年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
キーワード深層学習 / 画像生成モデル / 基盤モデル / 画像・言語モデル / 質感 / 特徴分離 / 画像生成
研究開始時の研究の概要

本研究では,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現する.(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する.これを統一的に実現する深層学習モデルを提案することが本研究の目的である.提案モデルを用いることで,(A) 大量のデータを用いた画像及び言語表現に関する「深奥な」質感分析の実現,(B) 言語による微妙な画像質感操作の実現,が可能となる.

研究実績の概要

本研究の当初の目的は,(1)大量の画像と言語のペアデータから画像の質感部分と言語の質感表現の対応付けを自動的に学習し,画像質感特徴量と言語質感特徴量の共通質感埋め込み空間を構築し,画像と言語の双方向検索(認識)を実現,(2)さらに質感埋め込みベクトルと画像の形状特徴量を融合させることによって,新たな質感を持つ画像生成を実現する,ことで,これを統一的に実現する深層学習モデルを提案することを目標としていた.
これに対して,本研究では2年間の研究期間の間に,次の3点の研究成果を得た.(1)クロスモーダルレシピデータセットを用いて,言語と画像双方から埋め込み可能なレシピ情報空間中のレシピベクトルと,食事の形状特徴を融合させることで,任意形状のレシピ情報に基づく食事画像生成を実現した.(2)事前学習済の画像・言語のクロスモーダル巨大モデルCLIPを用いて,画像の質感操作を実現し,その操作の度合を自由に制御する方法を提案した.(3)微分可能レンダラーを用いたフォント生成に対してCLIPを適用して,任意の言葉に対応したスタイルをもつフォント画像の生成手法も提案した.

現在までの達成度 (段落)

令和4年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和4年度が最終年度であるため、記入しない。

報告書

(2件)
  • 2022 実績報告書
  • 2021 実績報告書
  • 研究成果

    (17件)

すべて 2023 2022 2021

すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件、 オープンアクセス 2件) 学会発表 (15件) (うち国際学会 12件)

  • [雑誌論文] Material Translation Based on Neural Style Transfer with Ideal Style Image Retrieval2022

    • 著者名/発表者名
      Benitez-Garcia Gibran、Takahashi Hiroki、Yanai Keiji
    • 雑誌名

      Sensors

      巻: 22 号: 19 ページ: 7317-7317

    • DOI

      10.3390/s22197317

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] FASSD-Net: Fast and Accurate Real-Time Semantic Segmentation for Embedded Systems2021

    • 著者名/発表者名
      Rosas-Arias Leonel、Benitez-Garcia Gibran、Portillo-Portillo Jose、Olivares-Mercado Jesus、Sanchez-Perez Gabriel、Yanai Keiji
    • 雑誌名

      IEEE Transactions on Intelligent Transportation Systems

      巻: - 号: 9 ページ: 1-12

    • DOI

      10.1109/tits.2021.3127553

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] Patent Image RetrievalUsing Cross-entropy-based Metric Learning2023

    • 著者名/発表者名
      Kotaro Higuchi,Yuma Honbu,Keiji Yanai
    • 学会等名
      Proc.of International Workshop on Frontiers of Computer Vision (IW-FCV),
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Virtual Try-On Considering Temporal Consistency for Videoconferencing.2023

    • 著者名/発表者名
      Daiki Shimizu,Keiji Yanai
    • 学会等名
      Proc. of the International Multimedia Modeling Conference (MMM)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Transformer-Based Cross-Modal Recipe Embeddings with Large Batch Training.2023

    • 著者名/発表者名
      Jing Yang,Junwen Chen,Keiji Yanai
    • 学会等名
      Proc. of the International Multimedia Modeling Conference (MMM)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Zero-shot Font Style Transfer with a Differentiable Renderer2022

    • 著者名/発表者名
      Kota Izumi,Keiji Yanai
    • 学会等名
      Proc. of ACM Multimedia Asia
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Parallel Queries for Human-Object Interaction Detection2022

    • 著者名/発表者名
      Junwen Chen,Keiji Yanai
    • 学会等名
      Proc. of ACM Multimedia Asia
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] SetMealAsYouLike: Sketch-based Set Meal Image Synthesis with Plate Annotations2022

    • 著者名/発表者名
      Yuma Honbu,Keiji Yanai
    • 学会等名
      Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] DepthGrillCam: A Mobile Application for Real-time Eating Action Recording Using RGB-D Images2022

    • 著者名/発表者名
      Kento Adachi,Keiji Yanai
    • 学会等名
      Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Text-based Image Editing for Food Images with CLIP2022

    • 著者名/発表者名
      Kohei Yamamoto,Keiji Yanai
    • 学会等名
      Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Real Scale 3D Reconstruction of a Dish and a Plate using Implicit Function and a Single RGB-D Image2022

    • 著者名/発表者名
      Shu Naritomi,Keiji Yanai
    • 学会等名
      Proc. of ACMMM Workshop on Multimedia Assisted Dietary Management (MADIMA)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Continual Learning in Vision Transformer2022

    • 著者名/発表者名
      Mana Takeda,Keiji Yanai
    • 学会等名
      Proc.of IEEE International Conference on Image Processing (ICIP)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] StyleGAN-based CLIP-guided Image Shape Manipulation2022

    • 著者名/発表者名
      Yuchen Qian,Kohei Yamamoto,Keiji Yanai
    • 学会等名
      Proc.of International Conference on Content-based Multimedia Indexing (CBMI)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Unseen Food Segmentation2022

    • 著者名/発表者名
      Yuma Honbu,Keiji Yanai
    • 学会等名
      Proc.of ACM International Conference on Multimedia Retrieval (ICMR)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] クロスモーダルレシピエンベッティングによるマスクに基づく食事画像生成2022

    • 著者名/発表者名
      陳 仲涛,本部勇真,柳井啓司
    • 学会等名
      電子情報通信学会 パターン認識・メディア理解研究会(PRMU)
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Transformerを用いたクロスモーダルレシピ検索・画像生成2022

    • 著者名/発表者名
      楊 景,柳井啓司
    • 学会等名
      電子情報通信学会 パターン認識・メディア理解研究会(PRMU)
    • 関連する報告書
      2021 実績報告書
  • [学会発表] StyleGANによるCLIP-Guidedな画像形状特徴編集2022

    • 著者名/発表者名
      銭 雨晨,柳井啓司
    • 学会等名
      電子情報通信学会 パターン認識・メディア理解研究会(PRMU)
    • 関連する報告書
      2021 実績報告書

URL: 

公開日: 2021-10-22   更新日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi