広域3D環境に関するニューラル暗黙表現の学習とその応用に関する研究

研究課題

研究課題/領域番号	22K12166
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	信州大学
研究代表者	丸山稔信州大学, 学術研究院工学系, 教授 (80283232)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,510千円 (直接経費: 2,700千円、間接経費: 810千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	3次元モデリング / 暗黙表現 / 形状類似度 / 深層学習 / コンピュータビジョン / Vision Transformer / 広域モデル
研究開始時の研究の概要	近年、深層学習によって暗黙表現に基づく3次元モデル獲得の研究が盛んに行われている。これらの研究では多くの場合、対象が単一のオブジェクトに限定されている。本研究では広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することを目的として、対象3次元空間をグリッド分割し各セルにencoder-decoderを割り当てる構造を用いた広域データモデル化方式を検討する。特にencoderとしてtransformerを用いる効果の検証、得られる特徴量分布の形状検索への適用、さらにカーネル回帰の利用によるdecoderの効率的追加学習方式に関する研究を実施する。
研究実績の概要	本研究の目的は広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することである。このための基本方式としてはencoder-decoder型の処理を用いることを想定している。令和5年度の研究においては、3D点群データを入力としてencoder出力として得られるテンソルを形状特徴量とみなした場合の形状類似度検索への適用可能性を検討した。このために、入力点群に対して単一の特徴量を出力するタイプのencoderとしてONet（occupancy network）で用いられているアーキテクチャを用い、形状類似度判定への使用可能性を調べた。3DオブジェクトモデルデータベースShapeNetを用いてカテゴリ類似度検索、回転による類似度尺度の変化、点群密度の変動による影響などの実験を行い、回転や点群密度の低下に対しても耐性を持つことを確認した。点群データに対して単一の特徴ベクトルを生成するタイプのencoderはシーン全体などのモデル化のためには問題がある。この点を改良し、点群データと共に位置座標を入力として、位置に応じた特徴抽出をするencoderとしてCONet（convolutional occupancy network）で用いられているアーキテクチャについても形状類似度判定能力の検証を行った。比較実験の結果CONetのencoderの方が回転等の変換に対する耐性に優れていることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由令和4年度においては主として複数画像を入力としてencoder-decoder型のモデルにより3D暗黙表現を出力する方式について検討し、特にencoder部分についてtransformerを用いたときの効果の検証を行った。令和5年度ではencoder-decoder型ネットワークのencoder出力を3D形状表現と捉え、形状類似度検索に用いられるかどうかの検討を行い肯定的結果を得ている。このとき、単一オブジェクトに留まらずシーンに対して適用可能な方式（CONet）の検証も行っている。
今後の研究の推進方策	今年度の研究においては、まず令和4年度の研究で行った点群全体に対して1つの潜在表現を出力するタイプのencoderへのtansformerの適用を、令和5年度の研究で対象とした、場所に依存した潜在表現を出力するタイプのencoderに対してtransformerやPerceiverアーキテクチャーを適用する手法の検討を行い、実験により形状特徴の能力をはじめとした性能比較を行う。さらに、decoderに関しても従来のCNNベースからtransformer/Perceiverへ変換する方式の検討と性能比較を行う。また、特にdecoder部分に関してはencoder部分固定の下で新規データに関して追加学習・ファインチューニングを行う手法を検討する。またこれまでの研究では最終的に得られる暗黙表現の用途は3次元形状モデルを想定していたが、これに留まらず識別・オブジェクト検出などの各種推論タスクや言語によるインターフェース対応などについても検討を行う。