広域3D環境に関するニューラル暗黙表現の学習とその応用に関する研究

Research Project

Project/Area Number	22K12166
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Shinshu University
Principal Investigator	丸山稔信州大学, 学術研究院工学系, 教授 (80283232)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000) Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywords	3次元モデリング / 暗黙表現 / 形状類似度 / 深層学習 / コンピュータビジョン / Vision Transformer / 広域モデル
Outline of Research at the Start	近年、深層学習によって暗黙表現に基づく3次元モデル獲得の研究が盛んに行われている。これらの研究では多くの場合、対象が単一のオブジェクトに限定されている。本研究では広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することを目的として、対象3次元空間をグリッド分割し各セルにencoder-decoderを割り当てる構造を用いた広域データモデル化方式を検討する。特にencoderとしてtransformerを用いる効果の検証、得られる特徴量分布の形状検索への適用、さらにカーネル回帰の利用によるdecoderの効率的追加学習方式に関する研究を実施する。
Outline of Annual Research Achievements	本研究の目的は広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することである。このための基本方式としてはencoder-decoder型の処理を用いることを想定している。令和5年度の研究においては、3D点群データを入力としてencoder出力として得られるテンソルを形状特徴量とみなした場合の形状類似度検索への適用可能性を検討した。このために、入力点群に対して単一の特徴量を出力するタイプのencoderとしてONet（occupancy network）で用いられているアーキテクチャを用い、形状類似度判定への使用可能性を調べた。3DオブジェクトモデルデータベースShapeNetを用いてカテゴリ類似度検索、回転による類似度尺度の変化、点群密度の変動による影響などの実験を行い、回転や点群密度の低下に対しても耐性を持つことを確認した。点群データに対して単一の特徴ベクトルを生成するタイプのencoderはシーン全体などのモデル化のためには問題がある。この点を改良し、点群データと共に位置座標を入力として、位置に応じた特徴抽出をするencoderとしてCONet（convolutional occupancy network）で用いられているアーキテクチャについても形状類似度判定能力の検証を行った。比較実験の結果CONetのencoderの方が回転等の変換に対する耐性に優れていることを確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 令和4年度においては主として複数画像を入力としてencoder-decoder型のモデルにより3D暗黙表現を出力する方式について検討し、特にencoder部分についてtransformerを用いたときの効果の検証を行った。令和5年度ではencoder-decoder型ネットワークのencoder出力を3D形状表現と捉え、形状類似度検索に用いられるかどうかの検討を行い肯定的結果を得ている。このとき、単一オブジェクトに留まらずシーンに対して適用可能な方式（CONet）の検証も行っている。
Strategy for Future Research Activity	今年度の研究においては、まず令和4年度の研究で行った点群全体に対して1つの潜在表現を出力するタイプのencoderへのtansformerの適用を、令和5年度の研究で対象とした、場所に依存した潜在表現を出力するタイプのencoderに対してtransformerやPerceiverアーキテクチャーを適用する手法の検討を行い、実験により形状特徴の能力をはじめとした性能比較を行う。さらに、decoderに関しても従来のCNNベースからtransformer/Perceiverへ変換する方式の検討と性能比較を行う。また、特にdecoder部分に関してはencoder部分固定の下で新規データに関して追加学習・ファインチューニングを行う手法を検討する。またこれまでの研究では最終的に得られる暗黙表現の用途は3次元形状モデルを想定していたが、これに留まらず識別・オブジェクト検出などの各種推論タスクや言語によるインターフェース対応などについても検討を行う。