本研究では、画像生成モデルにおいて、ユーザがより直感的かつ柔軟に出力をコントロールできる技術の研究開発を行った。具体的には、本研究期間全体を通じて以下の三つのプロジェクトを推進した。特に最終年度には3)のプロジェクトを推進した。 1)単一の意味ラベルマップから多様な画像を生成する手法の開発:本研究の特徴的な点は、領域ラベルの種類やテクスチャの粒度ごとに、画像のスタイルをニューラルネットで抽出することにある。これにより、生成画像の品質を保持したまま、よりきめ細かい出力の制御が可能になり、従来技術よりも多様な意味的画像生成ができるようになった。 2)少量のラベル付きデータを用いた高品質な意味的画像合成技術の開発:教師なしで学習された画像生成モデルであるStyleGAN の知識を活用した擬似ラベリング手法、および擬似ラベリングを活用したGAN inversion 手法を確立し、従来よりも高品質な画像生成を可能にした。 3)画像上の直接操作によって画像生成モデルの出力を制御する技術の開発:生成モデルの潜在変数をユーザ入力に応じて変換する手法を提案し、従来では難しかった直感的な画像生成モデルの制御を実現した。 以上三つの成果は、主に1)Pacific Graphics 2020 (Computer Graphics Forum 掲載)、2)Computer Graphics International 2022 (Computer Animation and Virtual Worlds 掲載、3)Pacific Graphics 2022 (Computer Graphics Forum 掲載)などで発表した。また2)については、国内の研究会で受賞、3)については国内の研究会および国際会議でそれぞれ受賞した。
|