Project/Area Number |
23K11143
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
遠藤 結城 筑波大学, システム情報系, 助教 (00790396)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 画像処理 / 生成モデル / 深層学習 / 拡散モデル / 敵対的生成ネットワーク / 画像生成 |
Outline of Research at the Start |
深層画像生成モデルの進歩は、人間が実写と見間違うほどの画像生成を可能にしつつあり、コンテンツ産業や顔認証など、様々な応用が期待される。本研究の目的は、深層画像生成モデルを制御することで、高品質な画像を柔軟に生成可能なフレームワークを確立することである。特にこれを実現する際に生じる未解決問題として、可制御性と多様性を考慮した技術の構築を目指す。
|
Outline of Annual Research Achievements |
本年度より、深層画像生成モデルを制御することで、高品質な画像を柔軟に生成可能なフレームワークを確立することを目指し研究を推進した。具体的には、これを実現する際に生じる未解決問題として、(1)可制御性(深層画像生成モデルの出力をどの程度直感的に制御できるか)と(2)多様性(一つの属性入力に対して想定され得る複数スタイルの出力を得られるか)を改善する技術を開発した。
(1)可制御性については、近年目覚ましい進歩を遂げている拡散モデルに注目し、シーンのレイアウト構造を表す意味マスクを用いた、教師なしの画像生成手法を開発した。従来手法が同様の制御を実現するためには、教師データの作成にコストがかかるが、提案手法では拡散モデルの注意機構に着目することで、教師なしの方法を実現した。また、別のプロジェクトとして、人物のパラメトリック3Dモデルを入力とした、人物画像の姿勢や体型を制御する手法も開発した。既存手法は大きな姿勢や体型の変更時に歪みを生じる問題があったが、提案手法は学習済みの拡散モデルの知識を活用することで、歪みを補正する技術を新たに確立した。さらにもう一つのプロジェクトとして、人物の服装に特化した画像生成モデルを、テキスト入力によって制御する技術を開発した。本技術では、画像生成モデルである敵対的生成ネットワークの潜在変数をテキストに応じて効果的に操作するために、注意機構やマスクを用いたアプローチを導入した。
(2)多様性については、人物の顔画像の年齢編集に焦点を絞り、敵対的生成ネットワークの潜在空間を解析した。その結果、年齢属性について、縺れをほどいた潜在表現の獲得方法を確立し、これまでにない多様な人物画像の年齢編集を実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
深層画像生成モデルのユーザ制御を実現するために、可制御性と多様性に着目し、研究を推進し、計画以上の成果が得られたためである。可制御性については、当初の計画では、敵対的生成ネットワークに対して、従来よりきめ細かい制御を目標に掲げていた。具体的には、敵対的生成ネットワークに対する、テキスト入力による新たな制御方法を開発し、国際会議で成果を発表しBest Student Paper Awardを受賞した。一方、近年の拡散モデルの爆発的な発展という背景をふまえて、拡散モデルに対するレイアウト制御方法も複数検討し、国際会議や海外雑誌において成果を発表した。これらの成果は国内の研究会でも発表賞などを受賞した。多様性については、当初の計画通り、敵対的生成ネットワークにおける、特定の属性(年齢)に関するスタイルの縺れを考慮した多様化手法の開発を達成し、国際会議で成果を発表した。
|
Strategy for Future Research Activity |
深層画像生成モデルは、拡散モデルの登場に伴い、数か月単位の目覚ましいスピードで進歩している。当初の計画では、敵対的生成ネットワークを対象にした制御方法を検討しており、既に一定の成果を創出できている一方で、今後は拡散モデルに対するアプローチも、より一層検討を進めていく。特に、従来よりも柔軟かつ対話的な編集ができる軽量な拡散モデルの制御技術の確立を目指す。多様化については、これまでは顔画像の年齢属性の編集を扱ったが、他のカテゴリにも対象を広げながら、拡散モデルを用いたアプローチの開発も推進する。
|