Zeroshot learning of real-world AI by fusing large deep learning models and 3D virtual world
Project/Area Number |
23K28116
|
Project/Area Number (Other) |
23H03426 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
Co-Investigator(Kenkyū-buntansha) |
金崎 朝子 東京工業大学, 情報理工学院, 准教授 (00738073)
Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,850,000 (Direct Cost: ¥14,500,000、Indirect Cost: ¥4,350,000)
Fiscal Year 2025: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2024: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2023: ¥7,930,000 (Direct Cost: ¥6,100,000、Indirect Cost: ¥1,830,000)
|
Keywords | 大規模学習モデル / 3D仮想空間 / ゼロショット学習 / 生成AI / Embodied AI |
Outline of Research at the Start |
本課題では、インターネット空間に存在する膨大な画像や言語データを用いて学習された大規模な学習モデルと3D仮想空間を融合することで、汎用的・即応的な認識と行動実行を両立する「実世界AIのゼロショット学習方法論の確立」を目指す。物体、人間、環境と行動を対象とした学習モデルに関する研究課題として、①大規模視覚モデルを用いた物体3D認識・形状生成・追従技術、②画像に基づく人間の3D形状生成技術、③LLMや拡散モデルなどの生成モデルを用いたEmbodied AIの構築とその学習環境としてのNeural radiance field (NeRF)世界モデル構築等に関する研究を行う。
|
Outline of Annual Research Achievements |
2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。 テーマ①<物体認識>においては、CNN特徴量を用いた物体トラッキング(ビジュアルサーボ)技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。 テーマ②<人間形状復元>においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた3次元形状生成手法を構築した。
テーマ③<Embodied AI>においては、1000件の屋内環境を撮影した動画に対してNerfを適用して3D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
|
Strategy for Future Research Activity |
タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。
|
Report
(1 results)
Research Products
(5 results)