研究課題/領域番号 |
22K17983
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (40809117)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 実世界理解 / 3次元質問応答 / 実世界言語理解 / 自然言語処理 |
研究開始時の研究の概要 |
本研究では、実世界での言語理解課題の提案に取り組む。言語指示や質問応答理解として「郵便受けの中身を持ってきてほしい」や「冷蔵庫の脇に何が置いてあるか教えてほしい」のように周囲の状況に依存する言語テキストを理解し、課題の解決を目指す言語理解モデルやエージェントのための新しい学習環境の整備に取り組む。特に、視覚や動作情報などを扱える現実世界に近い3D環境を利用して、画像やセンサ情報をテキストに対応付けて捉えるためのデータセットを作成する。将来的に現実のロボットでの実証実験に応用できる基盤的なデータセットの構築を目指す。
|
研究実績の概要 |
2022年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進めた。特にテキストの質問に即して3次元の環境情報を理解して動作するエージェントのための学習基盤を整備する研究を行った。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。本研究では実世界をテキストに対応付けて認識するデータセットを作成した。実世界のスキャンから作られた3次元シーンデータセットであるScanNetに“Where is the blue suitcase laid?”のようにシーンに対応した質問を作成し、室内環境から物体を探索して質問に解答するための大規模なデータセットであるScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。この貢献により、既存の画像質問応答 (VQA) とは異なり、2D画像の中に写っていない物体についても、環境中から探索するようなモデルを作成することができるようになった。この成果は画像系のトップ国際会議CVPR2022に採択され口頭発表を行った。この他、キッチン環境にて、「(具材を)切る」「(複数の具材を)混ぜる」といった個別の調理動作により、対象となる具材がどのような変化を受けるかを、動画およびレシピテキストと対応付けて学習するためのデータセットを作成し、言語系の国際会議COLING2022に採択された。このように復数の分野での国際会議に採択されるなど、実世界の情報と自然言語テキストとを対応付けて理解する技術の研究は当初の想定を大きく超えて前進している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2022年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進め、実世界のスキャンから作られた3次元シーン質問応答データセットでScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。今後もScanQAデータセットを利用したさらなる応用研究が見込まれる。この成果は画像系のトップ国際会議CVPR2022に採択され口頭発表を行った。また、キッチン環境にて、「(具材を)切る」「(複数の具材を)混ぜる」といった個別の調理動作により、対象となる具材がどのような変化を受けるかを、動画およびレシピテキストと対応付けて学習するためのデータセットを作成し、言語系の国際会議COLING2022に採択されるなど、COLINGに2本の論文が採択された。このように復数の分野での国際会議に採択されるなど、実世界の情報と自然言語テキストとを対応付けて理解する技術の研究は当初の想定を大きく超えて前進している。
|
今後の研究の推進方策 |
本年度は、実世界の情報と自然言語テキストとを対応付けて理解する技術について研究を進め、実世界のスキャンから作られた3次元シーン質問応答データセットでScanQAデータセットおよび基本となる点群ニューラルネットワークモデルを作成した。既存の3次元理解では、3次元的な情報を、質疑応答を用いてテキストと対応付けるための大規模なデータセットが存在しないことにより、深層学習などの手法によるテキストに対応付けた3次元理解は困難な課題であった。今後もScanQAデータセットを利用したさらなる応用研究が見込まれる。また、動画データセットであるEgo4Dによる主観視点動画など、よりロボティクスや実世界応用を意識したデータを元に、テキストで指し示された物体を探索するデータセットを作成する予定である。 今後は、特にScanQAなどこれまでに作成されたデータセットを生かして、3次元仮想世界や実世界と積極的にインタラクションするモデルの探索や、大規模言語モデルを利用してより自然な実世界理解を目指す応用研究を模索している。
|