2022 Fiscal Year Research-status Report
Creation of datasets that combine 3D environmental and textual information
Project/Area Number |
22K17983
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (40809117)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 実世界理解 / 3次元質問応答 |
Outline of Annual Research Achievements |
2022年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進めた。特にテキストの質問に即して3次元の環境情報を理解して動作するエージェントのための学習基盤を整備する研究を行った。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。本研究では実世界をテキストに対応付けて認識するデータセットを作成した。実世界のスキャンから作られた3次元シーンデータセットであるScanNetに“Where is the blue suitcase laid?”のようにシーンに対応した質問を作成し、室内環境から物体を探索して質問に解答するための大規模なデータセットであるScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。この貢献により、既存の画像質問応答 (VQA) とは異なり、2D画像の中に写っていない物体についても、環境中から探索するようなモデルを作成することができるようになった。この成果は画像系のトップ国際会議CVPR2022に採択され口頭発表を行った。この他、キッチン環境にて、「(具材を)切る」「(複数の具材を)混ぜる」といった個別の調理動作により、対象となる具材がどのような変化を受けるかを、動画およびレシピテキストと対応付けて学習するためのデータセットを作成し、言語系の国際会議COLING2022に採択された。このように復数の分野での国際会議に採択されるなど、実世界の情報と自然言語テキストとを対応付けて理解する技術の研究は当初の想定を大きく超えて前進している。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2022年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進め、実世界のスキャンから作られた3次元シーン質問応答データセットでScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。今後もScanQAデータセットを利用したさらなる応用研究が見込まれる。この成果は画像系のトップ国際会議CVPR2022に採択され口頭発表を行った。また、キッチン環境にて、「(具材を)切る」「(複数の具材を)混ぜる」といった個別の調理動作により、対象となる具材がどのような変化を受けるかを、動画およびレシピテキストと対応付けて学習するためのデータセットを作成し、言語系の国際会議COLING2022に採択されるなど、COLINGに2本の論文が採択された。このように復数の分野での国際会議に採択されるなど、実世界の情報と自然言語テキストとを対応付けて理解する技術の研究は当初の想定を大きく超えて前進している。
|
Strategy for Future Research Activity |
本年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進め、実世界のスキャンから作られた3次元シーン質問応答データセットでScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。今後もScanQAデータセットを利用したさらなる応用研究が見込まれる。また、動画データセットであるEgo4Dによる主観視点動画など、よりロボティクスや実世界応用を意識したデータを元に、テキストで指し示された物体を探索するデータセットを作成する予定である。 今後は、特にScanQAなどこれまでに作成されたデータセットを生かして、3次元仮想世界や実世界と積極的にインタラクションするモデルの探索や、大規模言語モデルを利用してより自然な実世界理解を目指す応用研究を模索している。
|
Causes of Carryover |
本年度は想定よりも学生を雇用せず人件費や出張旅費も結果的に少なかったために、これらの費用やアノテーション費用を中心に翌年度に回すことにした。翌年度は人件費や出張旅費にこれらの費用を当てるとともに、データセットの高品質なアノテーションに経費を充当する計画でいる。
|
Research Products
(9 results)