Creation of datasets that combine 3D environmental and textual information
Project/Area Number |
22K17983
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 視覚と言語 / コンピュータビジョン / 自然言語処理 / 実世界理解 / 3次元質問応答 / 実世界言語理解 |
Outline of Research at the Start |
本研究では、実世界での言語理解課題の提案に取り組む。言語指示や質問応答理解として「郵便受けの中身を持ってきてほしい」や「冷蔵庫の脇に何が置いてあるか教えてほしい」のように周囲の状況に依存する言語テキストを理解し、課題の解決を目指す言語理解モデルやエージェントのための新しい学習環境の整備に取り組む。特に、視覚や動作情報などを扱える現実世界に近い3D環境を利用して、画像やセンサ情報をテキストに対応付けて捉えるためのデータセットを作成する。将来的に現実のロボットでの実証実験に応用できる基盤的なデータセットの構築を目指す。
|
Outline of Annual Research Achievements |
今年度は実世界とテキストを結ぶための基盤となるデータセット作成を中心に研究を進めた。特に、画像系のトップ国際会議ICCVにて、一人称視点動画における物体追跡に関する研究で筆頭で論文が採録され発表を行った (RefEgoデータセット)。同時に提案した手法を使うことで、追跡物体を動画のフレーム外に出てしまったなどの理由で見失っても、テキスト情報を利用することで同じ物体を特定し再び追跡することができるようになる。また、指導学生を中心とした研究グループにより、三次元空間での小物物体のグラウンディングを行うためのArKitSceneReferデータセットや、360度画像上での注目する物体に関するキャプション生成に関する研究にて作成したQuIC-360°データセットなどの研究成果が得られた。これらの研究は、いずれも特定の物体を動画や3次元空間上などでテキストから探しだす、テキストで指示された内容を詳述するなど、今後の研究展開に必要な基盤成果であり、自然言語処理系のトップ国際会議EMNLPにて2本の論文がfindings採録された。 当初の予想を上回る成果として、屋内の3Dシーンに限らず、街レベルの3Dスキャンに対し、建物などをテキストから特定する研究であるCifyReferデータセットを作成した。この成果は機械学習系のトップ会議であるNeurIPS dataset and benchmarkトラックに共著で採録され発表を行った。加えて、複数の手法で作られた屋内シーンでの物体のグラウンディングを行うCross3DVGを作成し、3次元視覚情報処理に関する会議である3DVに共著で採録され発表を行った。このように多数の研究協力者の力にも恵まれ当初の予定を上回る大きな成果が出たものと考える。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究に関連し今年度は特に以下のような成果が生まれた: [1] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans, 3DV (2024). [2] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data, NeurIPS2023 Datasets and Benchmarks track (2023). [3] Query-based Image Captioning from Multi-context 360° Images, EMNLP2023 findings (2023). [4] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes EMNLP2023 findings (2023). [5] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D (ICCV2023). これらはいずれも画像や言語、機械学習などのトップ国際会議で発表され、関連する国内会議発表も多数ある。また関連して、言語処理系の会議IJCNLP-AACL2023 Tutorialにて、Language and Roboticsのテーマでのテュートリアル講演を行った。このように、屋内環境でテキスト情報と実世界情報を対応付ける基盤整備という当初の目標を大きく超えた成果が生まれたものと考える。
|
Strategy for Future Research Activity |
屋内環境でのテキストと実世界情報を対応付ける基盤整備については、現在までの進捗状況で解説したように多数の研究発表が生まれ、一定の目途が立ったものと考える。今後はこれらの研究を国際的な知名度のある研究へと仕上げていくとともに、屋外・屋内データを利用した、シミュレータもしくはロボットなどによるテキストからのナビゲーション研究に利用していく予定でいる。具体的には、屋内のデータセットとしてすでに研究担当者らが整備済みのScanQAデータセットなどを利用して、「冷蔵庫の右隣には何があるか?」のようなテキストによる質問に答えるために屋内を探索し、該当の物体を探して質問に答えるEmbodiedQAについて検討している。この研究に対し、あらかじめ屋内の情報を表現する地図のようなものを作成し、事前情報から答えのある場所を優先して探索する手法について理論的な方面から検討するとともに、ロボットを用いたナビゲーション及び質問応答の実証実験を進めている。加えて、大規模言語モデルの驚異的な進歩に則り、大規模言語モデルの持つ事前知識をそのような実世界を指向した言語タスクにて応用し、また、大規模言語モデルの実世界での能力を測るための理論及び実験的な研究を進めている。さらに、申請時の想定を超える成果として、屋外のスキャンデータから作成したCityNavデータセットを利用して、街レベルでのドローンのナビゲーションデータセットについて、データの整備及びシミュレータを利用した実験を進めている。このように、これまでに作成した基盤となるデータセットを利用し、また近年急速に発展している大規模言語モデルを応用することで、理論及び実証など多様な方面に研究が進んでいる。
|
Report
(2 results)
Research Products
(28 results)