Part-based 3D shape retrieval using multi-modal query
Project/Area Number |
21K11903
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
大渕 竜太郎 山梨大学, 大学院総合研究部, 教授 (80313782)
|
Co-Investigator(Kenkyū-buntansha) |
古屋 貴彦 山梨大学, 大学院総合研究部, 准教授 (00770835)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | マルチメディア検索 / 3次元形状解析 / 3次元形状類似比較 / ディープラーニング / 教師無し学習 / 自己教師あり学習 / 3次元点群解析 / 3次元点群形状再構成 / 3次元形状類似検索 / 3次元点群トランスフォーマー / 深層学習 / 3次元形状検索 / トランスフォーマー / 拡散距離 / 部分3D形状検索 / 3D形状比較 / マルチモーダルクエリ / 機械学習 |
Outline of Research at the Start |
本課題では,多モードの検索要求(クエリ)により統合的・探索的・反復的に検索をする部分3次元(3D)形状検索技術(P3DSR)を目指す.検索の過程で適宜に言語,3次元(3D)形状,手書きスケッチ,などの複数モードのクエリを使い分けることで使いやすさが向上する.クエリの3D形状が検索対象の部分または全体の3D形状と類似した3D形状を検索するP3DSRの主要課題は,(1) 部分と全体の比較が困難である, (2) クエリのモードが(主に部分3D形状に)限られて使いにくい,の2点である.本課題では,(1)を部分・全体の対応を連想するニューラルネットワークにより,(2)を多モードの3D形状特徴群を共通特徴空間に埋め込みにより,それぞれ解決を試みる.
|
Outline of Annual Research Achievements |
本年度は,(1) 3D形状検索の基盤となる3次元(3D)形状の解析及び3D形状特徴の獲得方法,および,(2) 3D形状を含む2D画像やテキストなどの多モードのデータ群を関連付ける方法について研究を行った. (1) 3次元形状の回転に対し不変な形状特徴を,教師無しで獲得する手法に注目した.3次元形状はその獲得や生成において,3自由度の回転に関して任意性があるため,回転不変な形状特徴抽出や比較が重要である,また,ラベル付き3次元形状データの不足,および教師あり学習で発生するバイアスなどの理由から,教師無し学習による回転不変な形状特徴の獲得が必要である.しかし,これまで,教師無し学習で回転不変な特徴の獲得に成功した例は無かった.提案手法では,全体形状の形状特徴と向きを表現できる程度の大領域の特徴を基にし,自己蒸留の仕組みで得られた疑似ラベルを用いた自己教師あり学習を適用することで,教師無しで回転不変な特徴を獲得することに世界で初めて成功した. (2) いわゆるマルチモーダル基盤モデルを用いて3D形状を含む多モードのデータ群を関連付ける手法の基礎的な検討を行った.大規模言語モデル(LLM)を基にして2D画像や音声などの多モードデータを扱うマルチモーダル基盤モデルはここ1年ほどで飛躍的に発展した.これらの中には多視点の3D画像や3D形状を一定程度扱えるものもある.こうしたLLMベースのアプローチは本研究課題提案時には存在せず,その後に登場して急速に発展した.検討の結果,現時点では,多モード基盤モデルに基づく既存の手法では,ポリゴンや多様体モデルを含む多様な形状表現の生成は非常に限定的で,また回転不変性についても不十分な点が多く,研究の余地が多分にあることが分かった.同時に,必要とする計算資源(GPUなど)の要求が我々の範囲を超えて高く,研究を進めるうえで工夫が必要であることも分かった.
|
Report
(3 results)
Research Products
(7 results)