omni-directional image generation from snapshot image
Project/Area Number |
21K11943
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Sophia University |
Principal Investigator |
山中 高夫 上智大学, 理工学部, 准教授 (20433790)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 全天球画像 / 全天球カメラ / 360°画像 / 画像生成 / 画像外挿 / GAN / 仮想現実感 / cGAN / 深層学習 / 条件付き畳み込み層 |
Outline of Research at the Start |
本研究では,単一もしくは複数のスナップ写真から周りの状況を補間して自然な全天球画像を生成する方法の確立を目的とする。全天球画像とは,カメラの全方向を同時に撮影して得られる画像のことで,仮想現実感(VR)や拡張現実感(AR)のコンテンツを作成する際に利用される。広く普及している通常のカメラを使って全天球画像を生成できると,例えば,複数の観光名所を要約したような全天球画像の生成や,すでに撮影された2次元動画からそれらの状況を含むような3次元空間の再現などに応用できる。
|
Outline of Annual Research Achievements |
本研究では,通常のスナップ写真から全天球画像を生成する課題を研究対象とした。全天球画像とは,カメラの全方向を同時に撮影して得られる画像のことで,仮想現実感(VR)や拡張現実感(AR)のコンテンツを作成する際に利用される。全天球画像の活用は徐々に増えつつあるが,通常のカメラで撮影されるスナップ写真に比べると,まだ限られた用途にしか活用されていない。本研究では手軽に撮影できるスナップ写真から全天球画像を生成する手法を確立することを目的とした。 本年度は、(1) 階層型全天球画像生成モデルの検討、(2) MLPMixerを用いた手法に対する多様性の評価、(3) 任意のカメラ方向で撮影した画像から全天球画像の生成、(4) 拡散モデルの活用の検討の4点について検討を行った。(1)において、従来、単一のU-Netを用いて全天球画像を生成していたが、階層型全天球画像生成モデルでは、はじめに低解像度の画像から生成を初めて徐々に解像度の高い画像を生成する手法を提案した。(2)において、昨年度MLPMixerを利用した全天球画像生成手法を提案したが、本年度はその手法において中央に埋め込んだ入力画像の情報が全天球画像全体に効率的に伝達できているかを評価するために、生成された画像の多様性の評価を行った。(3)において、昨年度CNNを利用した手法で、任意のカメラ方向で撮影した画像から全天球画像を生成する手法を検討したが、本年度はMLPMixerを利用した手法でも任意のカメラ方向の入力で利用できるように検討した。(4)において、従来GANを利用して全天球画像生成を行っていたが、近年画像生成モデルとして利用されている拡散モデルの適用を検討した。現時点ではGANよりも精度の良い画像生成はできていないが、今後、その原因を検討することで拡散モデルの活用方法を検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1) 「階層型全天球画像生成モデルの検討」について、前述のように、はじめに低解像度の画像から生成を初めて徐々に解像度の高い画像を生成する手法を提案した。それにより、全体的に統一したコンセプトを持った高解像度の全天球画像を生成できた。 (2) 「MLPMixerを用いた手法に対する多様性の評価」について、昨年度提案したMLPMixerを利用した全天球画像生成手法について、中央に埋め込んだ入力画像の情報が全天球画像全体に効率的に伝達できているかを評価した。CNNでは、中央の情報が画像端まで伝達するのに、多くの層を通過する必要があるので、中央に埋め込んだ入力画像の情報が全天球画像全体に伝わりづらく、同じクラスのすべての全天球画像で、周辺部分は同じような画像が生成されている可能性がある。それに対して、MLPMixerでは画像端まで効率的に情報を伝達することが可能なので、入力画像に依存した全天球画像を生成できると考えられる。そこで、本研究では、多様な入力画像に対応して全天球画像の周辺部分の多様性をLPIPSの指標で評価し、CNNよりもその多様性が高くなることを確認した。 (3) 「任意のカメラ方向で撮影した画像から全天球画像の生成」について、昨年度はCNNを利用した手法で任意のカメラ方向の入力画像に対応した全天球画像生成を実現したが、本年度はMLMixerを利用した手法でも任意のカメラ方向の画像の入力を可能にした。 (4) 「拡散モデルの活用の検討」について、従来はGANを利用して全天球画像生成を実現したが、近年、拡散モデルを利用することで高精細な画像生成が可能になってきている。そこで、本研究でも拡散モデルを全天球画像に利用する可能性を検討した。現時点ではGANの方が高精細な画像を生成できているが、学習の安定性や多様性の実現などの可能性を考え、今後も拡散モデルの活用を検討する。
|
Strategy for Future Research Activity |
本年度は、(1) 全天球画像の歪を考慮した画像生成、(2) 拡散モデルの活用、(3) 条件付した全天球画像生成、(4) 複数画像の融合の4点について検討する。(1)「全天球画像の歪を考慮した画像生成」について、従来の手法では画像上部と下部に歪が存在する正距円筒図法で全天球画像生成を行っており、GANにより実際の全天球画像と区別できないように生成することにより、間接的にこの歪を再現するような全天球画像を生成していた。本年度はCube Map図法という歪の少ない表現方法で全天球画像を生成する手法を検討することに加え、Cube Map図法を拡張した手法についても検討する。このような図法に対して、CNNによる画像生成に加え、MLPMixerなど広い範囲に効率的に情報を伝達する手法も検討したい。(2) 「拡散モデルの活用」について、 昨年度も検討した拡散モデルを利用した生成手法の検討を今年度も継続する。特に、Adversarial Lossと組み合わせたり、シーン情報やCLIP特徴量による条件付けなどを検討したい。(3)「条件付した全天球画像生成」について、前述のようにシーン情報やCLIP特徴量などで条件付けした生成手法を検討したい。(4)複数画像の融合について、複数の画像から全天球画像を生成するモデルに対して、同時に撮影した複数画像を入力するだけでなく、異なる風景から撮影した複数画像から自然な全天球画像を生成するモデルを検討する。これにより、実際には存在しない様々な風景の全天球画像を人工的に生成することが可能になる。
|
Report
(2 results)
Research Products
(4 results)