2023 Fiscal Year Annual Research Report
Part-based 3D shape retrieval using multi-modal query
Project/Area Number |
21K11903
|
Research Institution | University of Yamanashi |
Principal Investigator |
大渕 竜太郎 山梨大学, 大学院総合研究部, 教授 (80313782)
|
Co-Investigator(Kenkyū-buntansha) |
古屋 貴彦 山梨大学, 大学院総合研究部, 准教授 (00770835)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | マルチメディア検索 / 3次元形状解析 / 3次元形状類似比較 / ディープラーニング / 教師無し学習 / 自己教師あり学習 |
Outline of Annual Research Achievements |
本年度は,(1) 3D形状検索の基盤となる3次元(3D)形状の解析及び3D形状特徴の獲得方法,および,(2) 3D形状を含む2D画像やテキストなどの多モードのデータ群を関連付ける方法について研究を行った. (1) 3次元形状の回転に対し不変な形状特徴を,教師無しで獲得する手法に注目した.3次元形状はその獲得や生成において,3自由度の回転に関して任意性があるため,回転不変な形状特徴抽出や比較が重要である,また,ラベル付き3次元形状データの不足,および教師あり学習で発生するバイアスなどの理由から,教師無し学習による回転不変な形状特徴の獲得が必要である.しかし,これまで,教師無し学習で回転不変な特徴の獲得に成功した例は無かった.提案手法では,全体形状の形状特徴と向きを表現できる程度の大領域の特徴を基にし,自己蒸留の仕組みで得られた疑似ラベルを用いた自己教師あり学習を適用することで,教師無しで回転不変な特徴を獲得することに世界で初めて成功した. (2) いわゆるマルチモーダル基盤モデルを用いて3D形状を含む多モードのデータ群を関連付ける手法の基礎的な検討を行った.大規模言語モデル(LLM)を基にして2D画像や音声などの多モードデータを扱うマルチモーダル基盤モデルはここ1年ほどで飛躍的に発展した.これらの中には多視点の3D画像や3D形状を一定程度扱えるものもある.こうしたLLMベースのアプローチは本研究課題提案時には存在せず,その後に登場して急速に発展した.検討の結果,現時点では,多モード基盤モデルに基づく既存の手法では,ポリゴンや多様体モデルを含む多様な形状表現の生成は非常に限定的で,また回転不変性についても不十分な点が多く,研究の余地が多分にあることが分かった.同時に,必要とする計算資源(GPUなど)の要求が我々の範囲を超えて高く,研究を進めるうえで工夫が必要であることも分かった.
|