2021 Fiscal Year Research-status Report
omni-directional image generation from snapshot image
Project/Area Number |
21K11943
|
Research Institution | Sophia University |
Principal Investigator |
山中 高夫 上智大学, 理工学部, 准教授 (20433790)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 全天球画像 / 全天球カメラ / 360°画像 / 画像生成 / 画像外挿 / GAN / cGAN / 仮想現実感 |
Outline of Annual Research Achievements |
本研究では,通常のスナップ写真から全天球画像を生成する課題を研究対象とした。全天球画像とは,カメラの全方向を同時に撮影して得られる画像のことで,仮想現実感(VR)や拡張現実感(AR)のコンテンツを作成する際に利用される。全天球画像の活用は徐々に増えつつあるが,通常のカメラで撮影されるスナップ写真に比べると,まだ限られた用途にしか活用されていない。本研究では手軽に撮影できるスナップ写真から全天球画像を生成する手法を確立することを目的とした。 本年度は、(1)任意のカメラ方向で撮影した単一画像から全天球画像の生成、(2)複数画像を利用した全天球画像生成、(3)全天球画像の歪を考慮した画像生成、(4)静止した風景を撮影した動画から全天球画像の生成、(5)ネットワーク構造の検討の5点について検討を行った。(1)において、従来の手法では、入力のスナップ写真のカメラ方向が水平方向に制限されていたが、任意のカメラ方向のスナップ写真を入力として利用できる手法を提案した。(2)では、入力として単一のスナップ写真だけではなく、複数の写真を利用する方法を検討し、実際にスマートフォンのフロントカメラとリアカメラの画像を入力として全天球画像を生成する手法を提案した。(3)において、全天球画像の上部と下部に存在する歪を明示的に補正するために、通常利用される正距円筒図法ではなく、Cube Map図法で表現する手法を提案した。(4)ではカメラを回転させながら撮影した動画から全天球画像を生成する手法を検討した。(5)では、全天球画像生成モデルのネットワーク構造として2通りの手法を検討した。1つは階層型構造の手法で低解像度からはじめて徐々に高解像度の画像を生成する手法であり、もう1つはMLPMixerという画像中の離れた場所にも情報を伝搬することのできるネットワーク構造を利用した手法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)「任意のカメラ方向で撮影した単一画像から全天球画像の生成」について、従来、カメラ方向が水平方向に限定されていたが、今年度はカメラの高さ方向に依存したネットワークを構築できるように、高さ方向の角度を条件ベクトルとしてニューラルネットワークに入力し、それに依存したネットワークを学習できるようにした。その結果、任意のカメラ方向で撮影した画像から全天球画像を生成できるようになった。 (2)「複数画像を利用した全天球画像生成」について、単一画像から全天球画像を生成するだけではなく、複数のスナップ写真から全天球画像を生成する手法を検討した。スマートフォンのフロントカメラとリアカメラで撮影した画像を利用して、実際にそれらのカメラで撮影した2枚の画像から全天球画像を生成できるモデルを構築した。 (3)「全天球画像の歪を考慮した画像生成」について、従来の手法では画像上部と下部に歪が存在する正距円筒図法で全天球画像生成を行っており、GANにより実際の全天球画像と区別できないように生成することにより、間接的にこの歪を再現するような全天球画像を生成していた。本年度は、Cube Map図法という歪の少ない表現方法で画像を生成する手法を検討した。その結果、精度が多少向上することが確認できたが、それほど大きな精度向上は得られなかった。 (4)「静止した風景を撮影した動画から全天球画像の生成」について、カメラを回転させながら撮影した動画から全天球画像を生成する課題に乗り組み、予備実験としてカメラ方向が既知の動画から全天球画像を生成した。この課題には様々な手法が考えられ、今後さらに高精度で生成できる手法を検討する必要がある。 (5)「ネットワーク構造の検討」について、従来の研究には含まれていなかったが、概要に記述したようにネットワーク構造の検討も行い、モデルサイズを大幅に削減できた。
|
Strategy for Future Research Activity |
本年度は、(1)ネットワーク構造の検討、(2)シーン情報の活用方法、(3)複数画像の融合の3点について検討する。(1)ネットワーク構造の検討について、本年度検討したMLPMixerを利用した手法を更に発展させて、学習に必要な時間の短縮やモデルサイズの減少、および生成画像の高精度化を目指す。また、MLPMixerは現状では学習に時間がかかるため、従来使用していたU-Net構造の畳み込みニューラルネットワーク(ConvNet)を利用した方が学習に必要な時間が短い。そこで、ConvNetを利用した全天球画像生成モデルに対しても様々な改良を加えることにより、小さいモデルサイズで高精度な画像生成の実現を目指す。また、これ以外にも新しい構造のネットワークを積極的に取り入れて、その有効性を検証する。(2)シーン情報の活用方法について、従来の全天球画像生成モデルでは、入力のスナップ写真からシーンを認識して、その認識結果をニューラルネットワークに入力することによりシーンに応じたモデルを構築した。これにより、様々なシーンに対する画像生成を単一のネットワークで実現できた。来年度はこのシーンの情報をネットワークの入力に利用するだけでなく、学習の教師信号として活用することを検討する。例えば、GANの識別器の出力としてシーン情報を出力して正しいシーンに認識されるように学習することが考えられる。(3)複数画像の融合について、本年度スマートフォンのフロントカメラとリアカメラを利用して検討したように、複数の画像から全天球画像を生成するモデルに対して、同時に撮影した複数画像を入力するだけでなく、異なる風景から撮影した複数画像から自然な全天球画像を生成するモデルを検討する。これにより、実際には存在しない様々な風景の全天球画像を人工的に生成することが可能になる。
|
Research Products
(2 results)