2023 年度実績報告書

大規模学習モデルと３Ｄ仮想空間をつなぐ実世界AIのゼロショット学習

研究課題

研究課題/領域番号	23H03426
配分区分	補助金
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	吉安祐介国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
研究分担者	金崎朝子東京工業大学, 情報理工学院, 准教授 (00738073) Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
研究期間 (年度)	2023-04-01 – 2026-03-31
キーワード	大規模学習モデル / 生成AI / ゼロショット学習 / Embodied AI / 3D仮想空間
研究実績の概要	2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。テーマ①＜物体認識＞においては、CNN特徴量を用いた物体トラッキング（ビジュアルサーボ）技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。テーマ②＜人間形状復元＞においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた３次元形状生成手法を構築した。テーマ③＜Embodied AI＞においては、1000件の屋内環境を撮影した動画に対してNerfを適用して３D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
今後の研究の推進方策	タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。

研究成果
(5件)

すべて 2024 2023

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 2件) 学会発表 (3件) (うち国際学会 1件、招待講演 2件)

[雑誌論文] A Study on Learned Feature Maps Toward Direct Visual Servoing2024
- 著者名/発表者名
  Quaccia Matthieu、Andre Antoine N.、Yoshiyasu Yusuke、Caron Guillaume
- 雑誌名
  
  In Proc, of SII 2024
  
  巻: - ページ: 520-525
- DOI
  10.1109/SII58957.2024.10417662
- 査読あり / 国際共著
[雑誌論文] TransFusionOdom: Transformer-Based LiDAR-Inertial Fusion Odometry Estimation2023
- 著者名/発表者名
  Sun Leyuan、Ding Guanqun、Qiu Yue、Yoshiyasu Yusuke、Kanehiro Fumio
- 雑誌名
  
  IEEE Sensors Journal
  
  巻: 23 ページ: 22064～22079
- DOI
  10.1109/JSEN.2023.3302401
- 査読あり
[学会発表] Deformable Mesh Transformer for 3D Human Mesh Recovery2023
- 著者名/発表者名
  Yusuke Yoshiyasu
- 学会等名
  CVPR 2023
- 国際学会
[学会発表] Deformable Mesh Transformer for 3D Human Mesh Recovery2023
- 著者名/発表者名
  吉安祐介
- 学会等名
  MIRU2023
- 招待講演
[学会発表] 三次元データを用いた学習技術2023
- 著者名/発表者名
  吉安祐介
- 学会等名
  SSII 2023
- 招待講演

2023 年度 実績報告書

大規模学習モデルと３Ｄ仮想空間をつなぐ実世界AIのゼロショット学習

研究代表者

吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] A Study on Learned Feature Maps Toward Direct Visual Servoing2024

著者名/発表者名

雑誌名

DOI

[雑誌論文] TransFusionOdom: Transformer-Based LiDAR-Inertial Fusion Odometry Estimation2023

著者名/発表者名

雑誌名

DOI

[学会発表] Deformable Mesh Transformer for 3D Human Mesh Recovery2023

著者名/発表者名

学会等名

[学会発表] Deformable Mesh Transformer for 3D Human Mesh Recovery2023

著者名/発表者名

学会等名

[学会発表] 三次元データを用いた学習技術2023

著者名/発表者名

学会等名

2023 年度実績報告書

吉安祐介国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)