研究課題/領域番号 |
22KK0184
|
研究種目 |
国際共同研究加速基金(国際共同研究強化(A))
|
配分区分 | 基金 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)
|
研究期間 (年度) |
2023 – 2025
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
15,470千円 (直接経費: 11,900千円、間接経費: 3,570千円)
|
キーワード | 視覚と言語 / コンピュータビジョン / 自然言語処理 / 知能ロボティクス / Vision and language |
研究開始時の研究の概要 |
深層学習を利用した言語処理・特にニューラル機械翻訳や言語モデル研究の大家であるニューヨーク大学Assoc. Prof. Kyunghyun Choらのもとを訪問し、基課題で作成しているデータセット等へと応用することで、実世界や実世界に近い仮想世界で言語に紐付いた動作を行う基盤となる学習方法やその応用を研究する。環境中の物体などの情報とテキスト情報との細かい対応付けを利用した条件付き言語生成モデルと、それを応用した環境情報とテキスト情報を対応付けたテキストからの動作生成やプランニング、実世界情報のテキスト実況システム、などの課題に取り組む。
|
研究実績の概要 |
本研究は、基課題である研究代表者の若手研究「3D環境情報と言語情報を対応付けるデータセットの作成」を国際的な研究課題として発展させ、特に訪問先であるニューヨーク大学の理論的・実証的な知見を申請者の進める、実世界での言語理解や、実世界とテキストを結ぶための基盤となるデータセット作成およびその応用へと生かすために研究を進めている。本研究では、画像系のトップ国際会議ICCVにて一人称視点動画における物体追跡に関する研究で筆頭で論文が採録され、発表を行った。データセットと同時に提案した手法を使うことで、追跡する物体を動画のフレーム外に出てしまったなどの理由で見失っても、テキスト情報を利用して同じ物体を特定し再び追跡することができるようになった。加えて、三次元上での言語理解に関するデータ基盤の整備として、三次元空間での小物物体のグラウンディングを行うためのデータセットや、360度画像上での注目する物体に関するキャプション生成に関する研究にて作成したデータセットなどの研究成果を発表した。これらの研究は、いずれも特定の物体を動画や3次元空間上などでテキストから探しだしたり、テキストで指示された内容の情報を詳述するために必要となる基盤となる成果であると考えられ、自然言語処理系のトップ国際会議EMNLPにて2本の論文がfindings採録された。同時に、本年度の研究期間の後半には、これらの研究成果から得られた知見を統合し、特に近年急速に発達しつつある大規模言語モデルを対象に理論および実験の両面から研究を進めるべく、ニューヨーク大学Center for Data Science Assoc. Prof. Kyunghyun Choの元を訪問滞在している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題に関連して今年度は特に基盤となるデータセットの整備をすすめ、一人称視点動画でのRefEgo, テキストでの指示個所を詳細に解説する QuIC-360degree, 小物物体の3Dグラウンディングである ARKitSceneReferなどの成果が生まれた。これらはいずれも画像や言語、機械学習などのトップ国際会議で発表され、関連する国内会議発表も多数ある。これらの研究成果を参考にしてニューヨーク大学との共同研究である大規模言語モデルや視覚言語モデルなどの分析研究などが進展しており、おおむね順調に進展していると判断する。
|
今後の研究の推進方策 |
屋内環境でのテキストと実世界情報を対応付ける基盤研究については、現在までの進捗状況で解説したように多数の研究発表が生まれ、一定の目途が立ったものと考える。今後はこれらの研究を国際的な知名度のある研究へと発展させていくために、理論及び実験的な方面から研究を進める予定でいる。また、大規模言語モデルの実世界での能力を測るための研究を実験的な手法で進めている。このように、これまでに作成した基盤となるデータセットを利用し、また近年急速に発展している大規模言語モデルを応用することで、理論と実験の双方で国際的な研究が進んでいる。
|