三次元空間情報を用いた実世界質問応答基盤の創出

研究課題

研究課題/領域番号	22K12159
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	株式会社国際電気通信基礎技術研究所
研究代表者	宮西大樹株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 研究員 (10737521)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2024年度: 130千円 (直接経費: 100千円、間接経費: 30千円) 2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2022年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
キーワード	3D点群 / 3D and Language / Embodied AI / コンピュータビジョン / 自然言語処理 / 3D点群データ
研究開始時の研究の概要	本研究では、二次元動画像の視覚的質問応答手法（2D- VQA）と三次元空間認識技術を統合することで、三次元空間情報について自然言語を介して問い合わせできる三次元空間質問応答技術（3D-VQA）を確立する。複数の屋内環境をRGB-Dスキャンした三次元空間情報の質問応答データセットを作成し、従来の 2D-VQAとの比較検証を行い、実空間の意味的・立体的理解が必要な問い合わせに三次元空間データが有用であることを実証する。本技術により、実空間の意味内容を理解して対話指示できるロボットや、実世界やVR・ARの三次元空間情報に自由にアクセスできる検索エンジンなどへの展開が期待できる。
研究実績の概要	本研究では、申請者がこれまで取り組んできた二次元動画像の視覚的質問応答手法と近年発展が著しい三次元空間認識技術を統合することで、三次元空間情報について自然言語を介して問い合わせできる三次元空間質問応答技術を確立する。複数の屋内環境をRGB-Dスキャンした三次元空間情報の質問応答データセットを作成し、従来の2D-VQAとの比較検証を行い、実空間の意味的・立体的理解が必要な問い合わせに三次元空間データが有用であることを実証する。本技術で実現される実空間を理解して応答する機能は、実空間の意味内容を理解して対話指示できるロボットや、実世界やVR・ARの三次元空間情報に自由にアクセスできる検索エンジンなど、幅広い分野で応用展開が期待できる。今年度は以下の項目に取り組んだ。①二次元空間質問応答モデルとの比較による優位性の検証：提案手法の工学的価値を検証するため、既存の二次元画像の視覚的質問応答（2D-VQA）で使用されている手法を昨年度作成した三次元質問応答デーセット課題に適用し、3D-VQAとの性能比較を行った。②既存の二次元画像と三次元点群データを融合した3D Visual Grounding手法の開発：前項で、三次元質問応答課題では2D-VQAと比較して3D-VQAがより高い精度を示したことが判明した。しかし、2D画像は3D点群データと比較して解像度が高く、より詳細な情報を捉えることができる利点がある。そこで、2D画像と3D点群データを組み合わせた3D Visual Grounding手法の開発を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本年度は、①実世界の状況が変化した屋内環境の3Dスキャンデータ3RScanに対して、屋内環境の物体の内容を表すテキストデータのアノテーションを行い3D Visual GroundingデータセットRIOReferを作成した。②また、スキャン時に取得される2D動画像データと3D点群データを融合した3D Visual Grounding手法の開発し、RIOReferを用いて提案手法の有効性を検証した。③さらに、3D Visual Grounding手法を都市スケールのデータに適用し、有効性の検証を行った。研究結果をまとめた論文が人工知能のTop-tierの国際会議NeurIPS 2023 D&Bと3D Visionの国際会議3DV 2024に採択されたため、「(1)当初の計画以上に進展している」の評価が妥当と考える。
今後の研究の推進方策	現在、3D質問応答データセットScanQAを更に拡張したEmbodied QAデータセットの作成を行ってる。この新しいデータセットを用いて、Embodiedエージェントの評価実験を実施している。次年度には、ロボットの実機を使用したEmbodied QAエージェントの実装と実験に取り組む予定である。さらに、3D Visual Groundingの結果を活用した言語指示に基づくナビゲーション手法の開発も行う。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2024 2023 2022

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち国際学会 1件、招待講演 1件)

[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024
- 著者名/発表者名
  Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, and Motoki Kawanabe
- 雑誌名
  
  In Proceedings of the 11th International Conference on 3D Vision 2024 (3DV 2024)
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023
- 著者名/発表者名
  Taiki Miyanishi*, Fumiya Kitamori*, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, and Nakamasa Inoue
- 雑誌名
  
  In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks (NeurIPS D&B 2023).
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地2023
- 著者名/発表者名
  宮西大樹, 東大地, 栗田修平, 川鍋一晃
- 学会等名
  2023年度人工知能学会全国大会（第37回）
- 関連する報告書
  2023 実施状況報告書
[学会発表] ScanQA: 3D Question Answering for Spatial Scene Understanding2022
- 著者名/発表者名
  Azuma Daichi、Miyanishi Taiki、Kurita Shuhei、Kawanabe Motoaki
- 学会等名
  The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] ScanQA: 3D Question Answering for Spatial Scene Understanding2022
- 著者名/発表者名
  Azuma Daichi、Miyanishi Taiki、Kurita Shuhei、Kawanabe Motoaki
- 学会等名
  MIRU2022 第25回画像の認識・理解シンポジウム
- 関連する報告書
  2022 実施状況報告書
- 招待講演

三次元空間情報を用いた実世界質問応答基盤の創出

研究代表者

宮西 大樹 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 研究員 (10737521)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ScanQA: 3D Question Answering for Spatial Scene Understanding2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] ScanQA: 3D Question Answering for Spatial Scene Understanding2022

著者名/発表者名

学会等名

関連する報告書

宮西大樹株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 研究員 (10737521)