3D環境情報と言語情報を対応付けるデータセットの作成

研究課題

研究課題/領域番号	22K17983
研究種目	若手研究
配分区分	基金
審査区分	小区分61050:知能ロボティクス関連
研究機関	国立研究開発法人理化学研究所
研究代表者	栗田修平国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	視覚と言語 / コンピュータビジョン / 自然言語処理 / 実世界理解 / 3次元質問応答 / 実世界言語理解
研究開始時の研究の概要	本研究では、実世界での言語理解課題の提案に取り組む。言語指示や質問応答理解として「郵便受けの中身を持ってきてほしい」や「冷蔵庫の脇に何が置いてあるか教えてほしい」のように周囲の状況に依存する言語テキストを理解し、課題の解決を目指す言語理解モデルやエージェントのための新しい学習環境の整備に取り組む。特に、視覚や動作情報などを扱える現実世界に近い3D環境を利用して、画像やセンサ情報をテキストに対応付けて捉えるためのデータセットを作成する。将来的に現実のロボットでの実証実験に応用できる基盤的なデータセットの構築を目指す。
研究実績の概要	今年度は実世界とテキストを結ぶための基盤となるデータセット作成を中心に研究を進めた。特に、画像系のトップ国際会議ICCVにて、一人称視点動画における物体追跡に関する研究で筆頭で論文が採録され発表を行った (RefEgoデータセット)。同時に提案した手法を使うことで、追跡物体を動画のフレーム外に出てしまったなどの理由で見失っても、テキスト情報を利用することで同じ物体を特定し再び追跡することができるようになる。また、指導学生を中心とした研究グループにより、三次元空間での小物物体のグラウンディングを行うためのArKitSceneReferデータセットや、360度画像上での注目する物体に関するキャプション生成に関する研究にて作成したQuIC-360°データセットなどの研究成果が得られた。これらの研究は、いずれも特定の物体を動画や3次元空間上などでテキストから探しだす、テキストで指示された内容を詳述するなど、今後の研究展開に必要な基盤成果であり、自然言語処理系のトップ国際会議EMNLPにて2本の論文がfindings採録された。当初の予想を上回る成果として、屋内の3Dシーンに限らず、街レベルの3Dスキャンに対し、建物などをテキストから特定する研究であるCifyReferデータセットを作成した。この成果は機械学習系のトップ会議であるNeurIPS dataset and benchmarkトラックに共著で採録され発表を行った。加えて、複数の手法で作られた屋内シーンでの物体のグラウンディングを行うCross3DVGを作成し、3次元視覚情報処理に関する会議である3DVに共著で採録され発表を行った。このように多数の研究協力者の力にも恵まれ当初の予定を上回る大きな成果が出たものと考える。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本研究に関連し今年度は特に以下のような成果が生まれた： [1] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans, 3DV (2024).　[2] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data, NeurIPS2023 Datasets and Benchmarks track (2023).　[3] Query-based Image Captioning from Multi-context 360° Images, EMNLP2023 findings (2023).　[4] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes EMNLP2023 findings (2023).　[5] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D (ICCV2023). これらはいずれも画像や言語、機械学習などのトップ国際会議で発表され、関連する国内会議発表も多数ある。また関連して、言語処理系の会議IJCNLP-AACL2023 Tutorialにて、Language and Roboticsのテーマでのテュートリアル講演を行った。このように、屋内環境でテキスト情報と実世界情報を対応付ける基盤整備という当初の目標を大きく超えた成果が生まれたものと考える。
今後の研究の推進方策	屋内環境でのテキストと実世界情報を対応付ける基盤整備については、現在までの進捗状況で解説したように多数の研究発表が生まれ、一定の目途が立ったものと考える。今後はこれらの研究を国際的な知名度のある研究へと仕上げていくとともに、屋外・屋内データを利用した、シミュレータもしくはロボットなどによるテキストからのナビゲーション研究に利用していく予定でいる。具体的には、屋内のデータセットとしてすでに研究担当者らが整備済みのScanQAデータセットなどを利用して、「冷蔵庫の右隣には何があるか？」のようなテキストによる質問に答えるために屋内を探索し、該当の物体を探して質問に答えるEmbodiedQAについて検討している。この研究に対し、あらかじめ屋内の情報を表現する地図のようなものを作成し、事前情報から答えのある場所を優先して探索する手法について理論的な方面から検討するとともに、ロボットを用いたナビゲーション及び質問応答の実証実験を進めている。加えて、大規模言語モデルの驚異的な進歩に則り、大規模言語モデルの持つ事前知識をそのような実世界を指向した言語タスクにて応用し、また、大規模言語モデルの実世界での能力を測るための理論及び実験的な研究を進めている。さらに、申請時の想定を超える成果として、屋外のスキャンデータから作成したCityNavデータセットを利用して、街レベルでのドローンのナビゲーションデータセットについて、データの整備及びシミュレータを利用した実験を進めている。このように、これまでに作成した基盤となるデータセットを利用し、また近年急速に発展している大規模言語モデルを応用することで、理論及び実証など多様な方面に研究が進んでいる。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(28件)

すべて 2024 2023 2022 その他

すべて国際共同研究 (2件) 雑誌論文 (9件) (うち査読あり 9件、オープンアクセス 9件) 学会発表 (17件) (うち国際学会 4件、招待講演 2件)

[国際共同研究] ニューヨーク大学(米国)
- 関連する報告書
  2023 実施状況報告書
[国際共同研究] ニューヨーク大学/Allen Institute for AI(米国)
- 関連する報告書
  2022 実施状況報告書
[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024
- 著者名/発表者名
  Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoaki Kawanabe
- 雑誌名
  
  The 10th International Conference on 3D Vision (3DV)
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023
- 著者名/発表者名
  Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue
- 雑誌名
  
  NeurIPS2023 Datasets and Benchmarks track
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Query-based Image Captioning from Multi-context 360° Images2023
- 著者名/発表者名
  Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki
- 雑誌名
  
  Findings of the Association for Computational Linguistics: EMNLP 2023
  
  巻: Findings ページ: 6940-6954
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes2023
- 著者名/発表者名
  Kato Shunya、Kurita Shuhei、Chu Chenhui、Kurohashi Sadao
- 雑誌名
  
  Findings of the Association for Computational Linguistics: EMNLP 2023
  
  巻: - ページ: 784-799
- DOI
  10.18653/v1/2023.findings-emnlp.56
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D2023
- 著者名/発表者名
  Shuhei Kurita, Naoki Katsura, Eri Onami
- 雑誌名
  
  2023 International Conference on Computer Vision
  
  巻: -
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 調理動作後の物体の視覚的状態予測を目指した Visual Recipe Flow データセットの構築と評価2023
- 著者名/発表者名
  白井圭佑, 橋本敦史, 西村太一, 亀甲博貴, 栗田修平, 森信介
- 雑誌名
  
  自然言語処理
  
  巻: 30 号: 3 ページ: 1042-1060
- DOI
  10.5715/jnlp.30.1042
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] ScanQA: 3D Question Answering for Spatial Scene Understanding2022
- 著者名/発表者名
  Azuma Daichi、Miyanishi Taiki、Kurita Shuhei、Kawanabe Motoaki
- 雑誌名
  
  The 2022 Conference on Computer Vision and Pattern Recognition (CVPR2022)
  
  巻: CVPR ページ: 19107-19117
- DOI
  10.1109/cvpr52688.2022.01854
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows2022
- 著者名/発表者名
  Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku and Shinsuke Mori
- 雑誌名
  
  The 29th International Conference on Computational Linguistics (COLING2022) (October 2022)
  
  巻: COLING ページ: 3570-3577
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] terative Span Selection: Self-Emergence of Resolving Orders in Semantic Role Labeling2022
- 著者名/発表者名
  Shuhei Kurita, Hiroki Ouchi, Kentaro Inui and Satoshi Sekine
- 雑誌名
  
  The 29th International Conference on Computational Linguistics (COLING2022) (October 2022)
  
  巻: COLING ページ: 5383-5397
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 都市環境における歩行者支援のための画像説明文生成用データセットの作成2024
- 著者名/発表者名
  西村千恵子, 栗田修平, 関洋平
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング2024
- 著者名/発表者名
  大南英理, 栗田修平, 宮西大樹, 渡辺太郎
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] SlideAVSR: 視聴覚音声認識のための論文解説動画データセット2024
- 著者名/発表者名
  王昊, 栗田修平, 清水周一郎, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法2024
- 著者名/発表者名
  前田航希, 栗田修平, 宮西大樹, 岡崎直観
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習2024
- 著者名/発表者名
  田智哉, 栗田修平, 西村太一, 森信介
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証2024
- 著者名/発表者名
  榎本倫太郎, Arseny Tolmachev, 新妻巧朗, 栗田修平, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Uzushio: A Distributed Huge Corpus Processor for the LLM Era2024
- 著者名/発表者名
  Arseny Tolmachev, Masayoshi Hayashi, Takuro Niitsuma, Rintaro Enomoto, Hao Wang, Shuhei Kurita, Daisuke Kawahara, Kazuma Takaoka, Yoshitaka Uchida
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地2023
- 著者名/発表者名
  宮西大樹, 東大地, 栗田修平, 川鍋一晃
- 学会等名
  2023年度人工知能学会全国大会（第37回）
- 関連する報告書
  2023 実施状況報告書
[学会発表] Language and Robotics: Toward Building Robots Coexisting with Human Society Using Language Interface2023
- 著者名/発表者名
  Yutaka Nakamura, Shuhei Kurita, Koichiro Yoshino
- 学会等名
  Proceedings of the 13th IJCNLP: Tutorial Abstract
- 関連する報告書
  2023 実施状況報告書
- 国際学会 / 招待講演
[学会発表] テキストからの実世界理解に向けて2023
- 著者名/発表者名
  栗田修平
- 学会等名
  第26回情報論的学習理論ワークショップ
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 実世界を認識して動作するための言語理解技術2023
- 著者名/発表者名
  栗田修平
- 学会等名
  NLP若手の会 (YANS) 第18回シンポジウム招待セッション
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 自然言語処理に用いられる深層学習 - 基礎から大規模言語モデルと応用までを解説 -2023
- 著者名/発表者名
  栗田修平
- 学会等名
  ロボット工学セミナー
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] テキスト条件付き物体検出器と参照表現理解への応用2022
- 著者名/発表者名
  桂尚輝, 栗田修平
- 学会等名
  第25回画像の認識・理解シンポジウム(MIRU2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] ScanQA: 3D Question Answering for Spatial Scene Understanding2022
- 著者名/発表者名
  Daichi Azuma, Taiki Miyanishi, Shuhei Kurita and Motoaki Kawanabe
- 学会等名
  第25回画像の認識・理解シンポジウム(MIRU2022)
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] ARKitSceneRefer: 3D屋内シーンでの参照表現による小物の位置特定2022
- 著者名/発表者名
  加藤駿弥, 栗田修平, Chenhui Chu, 黒橋禎夫
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] QuIC-360°: 360°画像に対するクエリ指向画像説明文生成のためのデータセット構築2022
- 著者名/発表者名
  前田航希, 栗田修平, 宮西大樹
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 実世界を認識して動作するための言語理解技術2022
- 著者名/発表者名
  栗田修平
- 学会等名
  データ工学ロボティクスとNEDO特別講座共催講演会
- 関連する報告書
  2022 実施状況報告書

3D環境情報と言語情報を対応付けるデータセットの作成

研究代表者

栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] ニューヨーク大学(米国)

関連する報告書

[国際共同研究] ニューヨーク大学/Allen Institute for AI(米国)

関連する報告書

[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Query-based Image Captioning from Multi-context 360° Images2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 調理動作後の物体の視覚的状態予測を目指した Visual Recipe Flow データセットの構築と評価2023

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] ScanQA: 3D Question Answering for Spatial Scene Understanding2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] terative Span Selection: Self-Emergence of Resolving Orders in Semantic Role Labeling2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 都市環境における歩行者支援のための画像説明文生成用データセットの作成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] SlideAVSR: 視聴覚音声認識のための論文解説動画データセット2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Uzushio: A Distributed Huge Corpus Processor for the LLM Era2024

著者名/発表者名

学会等名

関連する報告書

栗田修平国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)