2020 Fiscal Year Research-status Report
Reflectance Parameter Estimation in Large Outdoor Environments for Practical Graphics Production
Project/Area Number |
18K18075
|
Research Institution | The University of Tokyo |
Principal Investigator |
谷田川 達也 東京大学, 大学院工学系研究科(工学部), 助教 (50817484)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 多視点ステレオ法 / 逆レンダリング法 / 反射パラメータ |
Outline of Annual Research Achievements |
本年の研究では、本研究課題が目指す物体形状と反射特性の同時推定が、深層学習を用いた多視点ステレオ法の精度をより一般的な枠組みにおいても向上させる可能性を検討した。その結果、昨年までの研究で精度向上が確認できていたYaoらの手法(MVSNet)だけでなく、その発展形であるGuらの手法(CasMVSNet)についても同様に、反射特性の同時推定がその精度を向上させることが確認できた。これらの手法は、「コストボリューム」と呼ばれる深度の確からしさを三次元空間上にマップしたデータを三次元畳み込みニューラルネット (3D-CNN)により処理するという共通点がある。興味深いことに、MVSNetの発展手法であっても、このコストボリュームの処理方法が3D-CNNでないものについては、一部、提案技術が上手く機能しないものがあることも確認している。これらに対しては、総じて反射特性同時推定がニューラルネットの訓練を不安定化させることも分かっており、今後は、訓練の不安定性とコストボリュームの処理方法の相互関係について検討が求められる。加えて、本研究が最終的に目指している屋外環境の取得のために、より多くの屋外データを含むデータセットに対する推定精度の検討を開始している。この検討の背景として、現在提案されている深層学習ベースの多視点ステレオ法の多くが、大規模環境への適用において必要なメモリ量と推定精度の間のトレードオフを抱えていることが知られている。提案技術は、この問題の解決法の一つであるCasMVSNetの精度を向上させていることからも、CasMVSNetとは異なる側面から問題の解決に寄与する可能性があり、提案技術のどの部分が精度向上に寄与するかをより具体的に分析することで、多視点ステレオ法における深層学習を用いた特徴抽出のさらなる理解につなげたい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ここまでの研究から、多くの従来法との組み合わせにおいて、反射特性の推定がその精度を向上させる可能性が示唆されており、その点で、当該研究は順調に進行していると言って良い。また、研究を進める中で、反射特性を推定するかどうかに依らず、深層学習による多視点ステレオ法の問題点も見えてきた。現状、深層学習を用いる多視点ステレオ法の多くは、三次元空間上のどの位置に深度を表す曲面が現れるかを確率的に表現したコストボリュームを用いる。この情報を一般的なボリュームデータとして格納するには多くのメモリ容量が必要であるため、本研究課題が最終目的とする屋外の大規模環境の取得に対しては、その精度が制限される。提案技術が、そのような状況下においても形状推定精度を一定程度向上させることが示唆されたことは、大変興味深い結果である。一方で、一部の従来法については、反射特性の同時推定が上手く精度向上に寄与しない場合があることも分かっており、多視点ステレオ法に対する深層学習の理解に一定の示唆が与えられた。
|
Strategy for Future Research Activity |
上記の通り、ここまでの研究では、反射特性を物体形状と同時に推定することで、深層学習を用いた多視点ステレオ法においても、形状推定精度が向上することが分かった。一方で、大規模なシーンへの適用や、画像に写っていない場所に生じる欠損など、深層学習以前から残る問題が、深層学習を用いる場合においてもなお、実用上の問題となることが実感された。特に前者の欠損の問題については、通常、システムに入力する画像枚数を増やすことで緩和が可能であるものの、本研究が最終的に目指す大規模な屋外シーンでは、画像撮影の労力や、多くの画像を処理するのに必要な計算時間との兼ね合いから、画像枚数を少なくしたいとの要求もあり、単純に画像の枚数を増やすことは得策でない。現在は、多視点ステレオ法に限らず、通常のスキャナ等で得られたメッシュにも対応可能な形状復元法についても深層学習を用いた解決法の検討を開始しており、最終年度となる次年度に一定の成果を得たい。後者の問題については、前述のGuらの手法により一定の解決が見られており、本研究により、その精度がさらに向上することは確認できた。ただし、Guらの手法のどの部分で精度が向上しているかについては調査の余地が残る。今後は、シーンが大規模な場合に提案技術がより有効となるのかを分析しつつ、そのような大規模シーンの取り扱いについて、光学特性の推定を含めながらも、より広い視点から解決策を模索していきたい。
|