研究課題/領域番号 |
22K12166
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 信州大学 |
研究代表者 |
丸山 稔 信州大学, 学術研究院工学系, 教授 (80283232)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 3次元モデリング / 暗黙表現 / 深層学習 / Vision Transformer / コンピュータビジョン / 広域モデル |
研究開始時の研究の概要 |
近年、深層学習によって暗黙表現に基づく3次元モデル獲得の研究が盛んに行われている。これらの研究では多くの場合、対象が単一のオブジェクトに限定されている。本研究では広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することを目的として、対象3次元空間をグリッド分割し各セルにencoder-decoderを割り当てる構造を用いた広域データモデル化方式を検討する。特にencoderとしてtransformerを用いる効果の検証、得られる特徴量分布の形状検索への適用、さらにカーネル回帰の利用によるdecoderの効率的追加学習方式に関する研究を実施する。
|
研究実績の概要 |
本研究の目的は広域3次元環境に対しても適用可能な3次元暗黙表現を学習するための手法を確立することである。このための基本方式としてはencoder-decoder型の処理を用いることを想定している。今年度の研究においては、入力として複数画像を用いた場合の全体手法の考案、visual transformerを含む種々のencoderの方式の検討、さらに、encoder出力として得られるテンソルを入力の特徴量とみなした場合の形状類似度検索への適用可能性の検討などを行った。今年度の研究においては、3次元モデル構築のために複数画像を入力とする方式として、画像間の照合などは行わず、画像枚数も上限のみを設定するものの、入力数を自由に設定できる方式を考案した。またこれらの入力に対して適用するencoderとしては、従来画像識別で高い能力が実証されているResNetと近年自然言語処理の分野で広く用いられ、画像等への適用も進んでいる(vision) transformerを用い、能力比較を行った。本方式では画像間の照合などは行わず順序関係を与えることはできない。このような並べ替えに対する不変性を保証するためにはmax-poolingやtransformerの場合はpositional encodingをあえて行わない方式を用いた。これらの手法の適用により構築される3Dモデルを従来手法のひとつであるDISN(deep implicit surface network)と比較し、同等以上の能力を有することを確認した。このようなencoder-decoder型の処理の際、encoderから得られるテンソル表現は入力の特徴量とみなすことができる。これらが形状類似度検索に適用できるかどうかの基礎検討に着手した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の目標の中心はencoder-decoder型の3次元暗黙モデル構築処理において、特にencoder部分に関してtransformerの適用等の検証を行うことであった。これに関してはencoderとして画像識別などで広く用いられるCNNのひとつであるResNetを比較対象としてvision transformerの適用による効果を検証する研究を実施し、ResNet以上の性能が期待できることを確認することができている。また、encoder出力の応用に関しても、Occupancy Network, Convolutional Occupancy Networkを用いた場合の基礎検討に着手できている。
|
今後の研究の推進方策 |
今年度の研究を受けて、次年度の研究においては、考案した3次元暗黙表現モデルと従来提案されているモデルとのより詳しい性能比較を行うとともに、encoder出力の類似度検索の応用に関するより実質的検討を行う。3次元暗黙表現モデルについては、今年度同様に複数画像を入力とする場合を考え、encoderにvisual transformerを用いる場合を中心に検討を行い、適切なレイヤ数、次元数、multi-headerの数などについて実証的な検討を行う。またこれまで用いて来たpositional encoderなしの場合に加え、何らかの順序関係等を導入できないか検討を行う。このような検討に際しては、画像を対象とする通常のvisual transformerだけでなく、点群データを対象とする場合についても拡張を図る。このような検討によって得られたencoderとOccupancy NetworkやConvolutional Occupancy Networkなどの既存研究のencoder出力を類似度検索に適用した場合の比較を行う。このとき、得られるテンソル表現をそのまま使用するのは検索コストの点で実用的でないことが考えられるため、効率化のための粗密探索を中心とした方策を検討する。3次元暗黙表現獲得方式については、新規データを追加した際の効率的拡張・学習方式の検討も行う。これらの研究の実行のためには高性能のGPUを備えたPCが必要であるため、新規にGPU搭載PCを導入する。
|