研究課題/領域番号 |
23K28116
|
補助金の研究課題番号 |
23H03426 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
吉安 祐介 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10712234)
|
研究分担者 |
金崎 朝子 東京工業大学, 情報理工学院, 准教授 (00738073)
Caron Guillaume 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 客員研究員 (90927584)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
18,850千円 (直接経費: 14,500千円、間接経費: 4,350千円)
2025年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2024年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2023年度: 7,930千円 (直接経費: 6,100千円、間接経費: 1,830千円)
|
キーワード | 大規模学習モデル / 3D仮想空間 / ゼロショット学習 / 生成AI / Embodied AI |
研究開始時の研究の概要 |
本課題では、インターネット空間に存在する膨大な画像や言語データを用いて学習された大規模な学習モデルと3D仮想空間を融合することで、汎用的・即応的な認識と行動実行を両立する「実世界AIのゼロショット学習方法論の確立」を目指す。物体、人間、環境と行動を対象とした学習モデルに関する研究課題として、①大規模視覚モデルを用いた物体3D認識・形状生成・追従技術、②画像に基づく人間の3D形状生成技術、③LLMや拡散モデルなどの生成モデルを用いたEmbodied AIの構築とその学習環境としてのNeural radiance field (NeRF)世界モデル構築等に関する研究を行う。
|
研究実績の概要 |
2023年度は、本研究の基盤となるデータセットとベースラインモデルを整備し、物体、人間、環境と行動を対象とした実世界AIモデルのプロトタイプを構築した。 テーマ①<物体認識>においては、CNN特徴量を用いた物体トラッキング(ビジュアルサーボ)技術を研究した。従来はカラー画像を入力とするビジュアルサーボ技術が主流であったが、本手法ではVGGやHRNetなどのCNNから抽出した特徴マップを用いることを検討した。また、特徴マップにK means クラスタリングを適用することで次元圧縮処理した。このように処理した特徴マップを用いてDirect visual servoingの実現を試みたが、マップ上にノイズが残り、ロボットアームに搭載して動作するにまでは至らなかった。2024年度は、これまでに開発したビジュアルサーボのプロトタイプを改良しロボットアーム実機での実験を行う。加えて、vision transformerなど大規模なモデルから抽出した特徴マップの利用を検討する。 テーマ②<人間形状復元>においては、人間の3Dメッシュデータと人間2Dポーズ画像を大まかにフィッティングしたデータセットを構築した。また、拡散トランスフォーマモデルを用いた3次元形状生成手法を構築した。
テーマ③<Embodied AI>においては、1000件の屋内環境を撮影した動画に対してNerfを適用して3D自由視点生成データを作成するとともに、LLMや拡散モデルを用いたナビゲーション行動生成Embodied AIのベースラインモデルを準備した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
各テーマにおいてデータセット、ベースラインモデル、プロトタイプ設計が概ね進展したため。
|
今後の研究の推進方策 |
タスクの難度やデータのスケールによってゼロショット適用が難しい場合もあると考えられる。構築した学習モデルのファインチューニングの必要性などゼロショット適用の範囲を考察する。
|