研究課題/領域番号 |
23H03426
|
配分区分 | 補助金 |
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
研究分担者 |
金崎 朝子 東京工業大学, 情報理工学院, 准教授 (00738073)
Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 大規模学習モデル / 生成AI / ゼロショット学習 / Embodied AI / 3D仮想空間 |
研究実績の概要 |
2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。 テーマ①<物体認識>においては、CNN特徴量を用いた物体トラッキング(ビジュアルサーボ)技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。 テーマ②<人間形状復元>においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた3次元形状生成手法を構築した。
テーマ③<Embodied AI>においては、1000件の屋内環境を撮影した動画に対してNerfを適用して3D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
|
今後の研究の推進方策 |
タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。
|