2023 Fiscal Year Annual Research Report

Zeroshot learning of real-world AI by fusing large deep learning models and 3D virtual world

Research Project

Project/Area Number	23H03426
Allocation Type	Single-year Grants
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	吉安祐介国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
Co-Investigator(Kenkyū-buntansha)	金崎朝子東京工業大学, 情報理工学院, 准教授 (00738073) Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
Project Period (FY)	2023-04-01 – 2026-03-31
Keywords	大規模学習モデル / 生成AI / ゼロショット学習 / Embodied AI / 3D仮想空間
Outline of Annual Research Achievements	2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。テーマ①＜物体認識＞においては、CNN特徴量を用いた物体トラッキング（ビジュアルサーボ）技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。テーマ②＜人間形状復元＞においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた３次元形状生成手法を構築した。テーマ③＜Embodied AI＞においては、1000件の屋内環境を撮影した動画に対してNerfを適用して３D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
Strategy for Future Research Activity	タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。

Research Products
(5 results)

All 2024 2023

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results) Presentation (3 results) (of which Int'l Joint Research: 1 results, Invited: 2 results)

[Journal Article] A Study on Learned Feature Maps Toward Direct Visual Servoing2024
- Author(s)
  Quaccia Matthieu、Andre Antoine N.、Yoshiyasu Yusuke、Caron Guillaume
- Journal Title
  
  In Proc, of SII 2024
  
  Volume: - Pages: 520-525
- DOI
  10.1109/SII58957.2024.10417662
- Peer Reviewed / Int'l Joint Research
[Journal Article] TransFusionOdom: Transformer-Based LiDAR-Inertial Fusion Odometry Estimation2023
- Author(s)
  Sun Leyuan、Ding Guanqun、Qiu Yue、Yoshiyasu Yusuke、Kanehiro Fumio
- Journal Title
  
  IEEE Sensors Journal
  
  Volume: 23 Pages: 22064～22079
- DOI
  10.1109/JSEN.2023.3302401
- Peer Reviewed
[Presentation] Deformable Mesh Transformer for 3D Human Mesh Recovery2023
- Author(s)
  Yusuke Yoshiyasu
- Organizer
  CVPR 2023
- Int'l Joint Research
[Presentation] Deformable Mesh Transformer for 3D Human Mesh Recovery2023
- Author(s)
  吉安祐介
- Organizer
  MIRU2023
- Invited
[Presentation] 三次元データを用いた学習技術2023
- Author(s)
  吉安祐介
- Organizer
  SSII 2023
- Invited

2023 Fiscal Year Annual Research Report

Zeroshot learning of real-world AI by fusing large deep learning models and 3D virtual world

Principal Investigator

吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)

Current Status of Research Progress

Reason

Research Products

[Journal Article] A Study on Learned Feature Maps Toward Direct Visual Servoing2024

Author(s)

Journal Title

DOI

[Journal Article] TransFusionOdom: Transformer-Based LiDAR-Inertial Fusion Odometry Estimation2023

Author(s)

Journal Title

DOI

[Presentation] Deformable Mesh Transformer for 3D Human Mesh Recovery2023

Author(s)

Organizer

[Presentation] Deformable Mesh Transformer for 3D Human Mesh Recovery2023

Author(s)

Organizer

[Presentation] 三次元データを用いた学習技術2023

Author(s)

Organizer

吉安祐介国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)