2023 Fiscal Year Annual Research Report
Zeroshot learning of real-world AI by fusing large deep learning models and 3D virtual world
Project/Area Number |
23H03426
|
Allocation Type | Single-year Grants |
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
Co-Investigator(Kenkyū-buntansha) |
金崎 朝子 東京工業大学, 情報理工学院, 准教授 (00738073)
Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 大規模学習モデル / 生成AI / ゼロショット学習 / Embodied AI / 3D仮想空間 |
Outline of Annual Research Achievements |
2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。 テーマ①<物体認識>においては、CNN特徴量を用いた物体トラッキング(ビジュアルサーボ)技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。 テーマ②<人間形状復元>においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた3次元形状生成手法を構築した。
テーマ③<Embodied AI>においては、1000件の屋内環境を撮影した動画に対してNerfを適用して3D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
|
Strategy for Future Research Activity |
タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。
|