深層画像生成モデルのユーザ制御の研究

Research Project

Project/Area Number	23K11143
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	University of Tsukuba
Principal Investigator	遠藤結城筑波大学, システム情報系, 助教 (00790396)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000) Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000) Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	画像処理 / 生成モデル / 深層学習 / 拡散モデル / 敵対的生成ネットワーク / 画像生成
Outline of Research at the Start	深層画像生成モデルの進歩は、人間が実写と見間違うほどの画像生成を可能にしつつあり、コンテンツ産業や顔認証など、様々な応用が期待される。本研究の目的は、深層画像生成モデルを制御することで、高品質な画像を柔軟に生成可能なフレームワークを確立することである。特にこれを実現する際に生じる未解決問題として、可制御性と多様性を考慮した技術の構築を目指す。
Outline of Annual Research Achievements	本年度より、深層画像生成モデルを制御することで、高品質な画像を柔軟に生成可能なフレームワークを確立することを目指し研究を推進した。具体的には、これを実現する際に生じる未解決問題として、（1）可制御性（深層画像生成モデルの出力をどの程度直感的に制御できるか）と（2）多様性（一つの属性入力に対して想定され得る複数スタイルの出力を得られるか）を改善する技術を開発した。（1）可制御性については、近年目覚ましい進歩を遂げている拡散モデルに注目し、シーンのレイアウト構造を表す意味マスクを用いた、教師なしの画像生成手法を開発した。従来手法が同様の制御を実現するためには、教師データの作成にコストがかかるが、提案手法では拡散モデルの注意機構に着目することで、教師なしの方法を実現した。また、別のプロジェクトとして、人物のパラメトリック3Dモデルを入力とした、人物画像の姿勢や体型を制御する手法も開発した。既存手法は大きな姿勢や体型の変更時に歪みを生じる問題があったが、提案手法は学習済みの拡散モデルの知識を活用することで、歪みを補正する技術を新たに確立した。さらにもう一つのプロジェクトとして、人物の服装に特化した画像生成モデルを、テキスト入力によって制御する技術を開発した。本技術では、画像生成モデルである敵対的生成ネットワークの潜在変数をテキストに応じて効果的に操作するために、注意機構やマスクを用いたアプローチを導入した。（2）多様性については、人物の顔画像の年齢編集に焦点を絞り、敵対的生成ネットワークの潜在空間を解析した。その結果、年齢属性について、縺れをほどいた潜在表現の獲得方法を確立し、これまでにない多様な人物画像の年齢編集を実現した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 深層画像生成モデルのユーザ制御を実現するために、可制御性と多様性に着目し、研究を推進し、計画以上の成果が得られたためである。可制御性については、当初の計画では、敵対的生成ネットワークに対して、従来よりきめ細かい制御を目標に掲げていた。具体的には、敵対的生成ネットワークに対する、テキスト入力による新たな制御方法を開発し、国際会議で成果を発表しBest Student Paper Awardを受賞した。一方、近年の拡散モデルの爆発的な発展という背景をふまえて、拡散モデルに対するレイアウト制御方法も複数検討し、国際会議や海外雑誌において成果を発表した。これらの成果は国内の研究会でも発表賞などを受賞した。多様性については、当初の計画通り、敵対的生成ネットワークにおける、特定の属性（年齢）に関するスタイルの縺れを考慮した多様化手法の開発を達成し、国際会議で成果を発表した。
Strategy for Future Research Activity	深層画像生成モデルは、拡散モデルの登場に伴い、数か月単位の目覚ましいスピードで進歩している。当初の計画では、敵対的生成ネットワークを対象にした制御方法を検討しており、既に一定の成果を創出できている一方で、今後は拡散モデルに対するアプローチも、より一層検討を進めていく。特に、従来よりも柔軟かつ対話的な編集ができる軽量な拡散モデルの制御技術の確立を目指す。多様化については、これまでは顔画像の年齢属性の編集を扱ったが、他のカテゴリにも対象を広げながら、拡散モデルを用いたアプローチの開発も推進する。

Report

(1 results)

2023 Research-status Report

Research Products
(9 results)

All 2024 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (6 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

[Journal Article] Masked-attention diffusion guidance for spatially controlling text-to-image generation2023
- Author(s)
  Endo Yuki
- Journal Title
  
  The Visual Computer
  
  Volume: - Issue: 9 Pages: 6033-6045
- DOI
  10.1007/s00371-023-03151-y
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Age-dependent face diversification via latent space analysis2023
- Author(s)
  Ito Taishi、Endo Yuki、Kanamori Yoshihiro
- Journal Title
  
  The Visual Computer
  
  Volume: 39 Issue: 8 Pages: 3221-3233
- DOI
  10.1007/s00371-023-03000-y
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Presentation] StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human2024
- Author(s)
  Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori
- Organizer
  International Conference on Compuer Vision Theory and Applications (VISAPP) 2024
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] DiffBody: Diffusion-based Pose and Shape Editing of Human Images2024
- Author(s)
  Yuta Okuyama, Yuki Endo, Yoshihiro Kanamori
- Organizer
  IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2024
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] フォントスタイルを指定可能なテキストからの画像生成2024
- Author(s)
  夏馨，遠藤結城，金森由博
- Organizer
  情報処理学会第 86 回全国大会
- Related Report
  2023 Research-status Report
[Presentation] Masked-Attention Diffusion Guidance によるText-to-Image の空間的制御2023
- Author(s)
  遠藤結城
- Organizer
  Visual Computing 2023
- Related Report
  2023 Research-status Report
[Presentation] 拡散モデルを用いた人物画像の姿勢と体型の編集2023
- Author(s)
  奥山裕大, 遠藤結城, 金森由博
- Organizer
  Visual Computing 2023
- Related Report
  2023 Research-status Report
[Presentation] StyleHumanCLIP：StyleGAN-Humanを用いた人物画像のテキストによる服装操作2023
- Author(s)
  吉川天斗, 遠藤結城, 金森由博
- Organizer
  Visual Computing 2023
- Related Report
  2023 Research-status Report
[Remarks] https://endo-yuki-t.github.io/
- Related Report
  2023 Research-status Report

深層画像生成モデルのユーザ制御の研究

Principal Investigator

遠藤 結城 筑波大学, システム情報系, 助教 (00790396)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Masked-attention diffusion guidance for spatially controlling text-to-image generation2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Age-dependent face diversification via latent space analysis2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human2024

Author(s)

Organizer

Related Report

[Presentation] DiffBody: Diffusion-based Pose and Shape Editing of Human Images2024

Author(s)

Organizer

Related Report

[Presentation] フォントスタイルを指定可能なテキストからの画像生成2024

Author(s)

Organizer

Related Report

[Presentation] Masked-Attention Diffusion Guidance によるText-to-Image の空間的制御2023

Author(s)

Organizer

Related Report

[Presentation] 拡散モデルを用いた人物画像の姿勢と体型の編集2023

Author(s)

Organizer

Related Report

[Presentation] StyleHumanCLIP：StyleGAN-Humanを用いた人物画像のテキストによる服装操作2023

Author(s)

Organizer

Related Report

[Remarks] https://endo-yuki-t.github.io/

Related Report

遠藤結城筑波大学, システム情報系, 助教 (00790396)