2023 Fiscal Year Research-status Report
広域3D環境に関するニューラル暗黙表現の学習とその応用に関する研究
Project/Area Number |
22K12166
|
Research Institution | Shinshu University |
Principal Investigator |
丸山 稔 信州大学, 学術研究院工学系, 教授 (80283232)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 3次元モデリング / 暗黙表現 / 形状類似度 / 深層学習 / コンピュータビジョン |
Outline of Annual Research Achievements |
本研究の目的は広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することである。このための基本方式としてはencoder-decoder型の処理を用いることを想定している。令和5年度の研究においては、3D点群データを入力としてencoder出力として得られるテンソルを形状特徴量とみなした場合の形状類似度検索への適用可能性を検討した。このために、入力点群に対して単一の特徴量を出力するタイプのencoderとしてONet(occupancy network)で用いられているアーキテクチャを用い、形状類似度判定への使用可能性を調べた。3DオブジェクトモデルデータベースShapeNetを用いてカテゴリ類似度検索、回転による類似度尺度の変化、点群密度の変動による影響などの実験を行い、回転や点群密度の低下に対しても耐性を持つことを確認した。点群データに対して単一の特徴ベクトルを生成するタイプのencoderはシーン全体などのモデル化のためには問題がある。この点を改良し、点群データと共に位置座標を入力として、位置に応じた特徴抽出をするencoderとしてCONet(convolutional occupancy network)で用いられているアーキテクチャについても形状類似度判定能力の検証を行った。比較実験の結果CONetのencoderの方が回転等の変換に対する耐性に優れていることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和4年度においては主として複数画像を入力としてencoder-decoder型のモデルにより3D暗黙表現を出力する方式について検討し、特にencoder部分についてtransformerを用いたときの効果の検証を行った。令和5年度ではencoder-decoder型ネットワークのencoder出力を3D形状表現と捉え、形状類似度検索に用いられるかどうかの検討を行い肯定的結果を得ている。このとき、単一オブジェクトに留まらずシーンに対して適用可能な方式(CONet)の検証も行っている。
|
Strategy for Future Research Activity |
今年度の研究においては、まず令和4年度の研究で行った点群全体に対して1つの潜在表現を出力するタイプのencoderへのtansformerの適用を、令和5年度の研究で対象とした、場所に依存した潜在表現を出力するタイプのencoderに対してtransformerやPerceiverアーキテクチャーを適用する手法の検討を行い、実験により形状特徴の能力をはじめとした性能比較を行う。さらに、decoderに関しても従来のCNNベースからtransformer/Perceiverへ変換する方式の検討と性能比較を行う。また、特にdecoder部分に関してはencoder部分固定の下で新規データに関して追加学習・ファインチューニングを行う手法を検討する。またこれまでの研究では最終的に得られる暗黙表現の用途は3次元形状モデルを想定していたが、これに留まらず識別・オブジェクト検出などの各種推論タスクや言語によるインターフェース対応などについても検討を行う。
|
Causes of Carryover |
本研究では多層構造のニューラルネットワークを学習するためにできるだけ大きなメモリを搭載したGPUを用いる必要がある。令和5年度はこのためにnVidia RTX4090を搭載したPCを購入したが、令和6年度予算と合算して、さらに同程度のGPUを搭載したPCを購入できるよう予算を一部振り向けることとした。
|