2023 年度実施状況報告書

実世界に対応付いた言語モデルによる3D環境情報の理解と応用

研究課題

研究課題/領域番号	22KK0184
研究機関	国立研究開発法人理化学研究所
研究代表者	栗田修平国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)
研究期間 (年度)	2023 – 2025
キーワード	視覚と言語 / コンピュータビジョン / 自然言語処理
研究実績の概要	本研究は、基課題である研究代表者の若手研究「3D環境情報と言語情報を対応付けるデータセットの作成」を国際的な研究課題として発展させ、特に訪問先であるニューヨーク大学の理論的・実証的な知見を申請者の進める、実世界での言語理解や、実世界とテキストを結ぶための基盤となるデータセット作成およびその応用へと生かすために研究を進めている。本研究では、画像系のトップ国際会議ICCVにて一人称視点動画における物体追跡に関する研究で筆頭で論文が採録され、発表を行った。データセットと同時に提案した手法を使うことで、追跡する物体を動画のフレーム外に出てしまったなどの理由で見失っても、テキスト情報を利用して同じ物体を特定し再び追跡することができるようになった。加えて、三次元上での言語理解に関するデータ基盤の整備として、三次元空間での小物物体のグラウンディングを行うためのデータセットや、360度画像上での注目する物体に関するキャプション生成に関する研究にて作成したデータセットなどの研究成果を発表した。これらの研究は、いずれも特定の物体を動画や3次元空間上などでテキストから探しだしたり、テキストで指示された内容の情報を詳述するために必要となる基盤となる成果であると考えられ、自然言語処理系のトップ国際会議EMNLPにて2本の論文がfindings採録された。同時に、本年度の研究期間の後半には、これらの研究成果から得られた知見を統合し、特に近年急速に発達しつつある大規模言語モデルを対象に理論および実験の両面から研究を進めるべく、ニューヨーク大学Center for Data Science Assoc. Prof. Kyunghyun Choの元を訪問滞在している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題に関連して今年度は特に基盤となるデータセットの整備をすすめ、一人称視点動画でのRefEgo, テキストでの指示個所を詳細に解説する QuIC-360degree, 小物物体の3Dグラウンディングである ARKitSceneReferなどの成果が生まれた。これらはいずれも画像や言語、機械学習などのトップ国際会議で発表され、関連する国内会議発表も多数ある。これらの研究成果を参考にしてニューヨーク大学との共同研究である大規模言語モデルや視覚言語モデルなどの分析研究などが進展しており、おおむね順調に進展していると判断する。
今後の研究の推進方策	屋内環境でのテキストと実世界情報を対応付ける基盤研究については、現在までの進捗状況で解説したように多数の研究発表が生まれ、一定の目途が立ったものと考える。今後はこれらの研究を国際的な知名度のある研究へと発展させていくために、理論及び実験的な方面から研究を進める予定でいる。また、大規模言語モデルの実世界での能力を測るための研究を実験的な手法で進めている。このように、これまでに作成した基盤となるデータセットを利用し、また近年急速に発展している大規模言語モデルを応用することで、理論と実験の双方で国際的な研究が進んでいる。

研究成果
(18件)

すべて 2024 2023

すべて雑誌論文 (6件) (うち査読あり 6件、オープンアクセス 6件) 学会発表 (12件) (うち国際学会 1件、招待講演 4件)

[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024
- 著者名/発表者名
  Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoaki Kawanabe
- 雑誌名
  
  The 10th International Conference on 3D Vision (3DV)
  
  巻: - ページ: -
- 査読あり / オープンアクセス
[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023
- 著者名/発表者名
  Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue
- 雑誌名
  
  NeurIPS2023 Datasets and Benchmarks track
  
  巻: - ページ: -
- 査読あり / オープンアクセス
[雑誌論文] Query-based Image Captioning from Multi-context 360° Images2023
- 著者名/発表者名
  Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki
- 雑誌名
  
  Findings of the Association for Computational Linguistics: EMNLP 2023
  
  巻: Findings ページ: 6940-6954
- 査読あり / オープンアクセス
[雑誌論文] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes2023
- 著者名/発表者名
  Kato Shunya, Kurita Shuhei, Chu Chenhui, Kurohashi Sadao
- 雑誌名
  
  Findings of the Association for Computational Linguistics: EMNLP 2023
  
  巻: - ページ: 784-799
- DOI
  10.18653/v1/2023.findings-emnlp.56
- 査読あり / オープンアクセス
[雑誌論文] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D2023
- 著者名/発表者名
  Shuhei Kurita, Naoki Katsura, Eri Onami
- 雑誌名
  
  2023 International Conference on Computer Vision
  
  巻: - ページ: -
- 査読あり / オープンアクセス
[雑誌論文] 調理動作後の物体の視覚的状態予測を目指した Visual Recipe Flow データセットの構築と評価2023
- 著者名/発表者名
  白井圭佑, 橋本敦史, 西村太一, 亀甲博貴, 栗田修平, 森信介
- 雑誌名
  
  自然言語処理
  
  巻: 30(3) ページ: 1042-1060
- DOI
  10.5715/jnlp.30.1042
- 査読あり / オープンアクセス
[学会発表] 都市環境における歩行者支援のための画像説明文生成用データセットの作成2024
- 著者名/発表者名
  西村千恵子, 栗田修平, 関洋平
- 学会等名
  言語処理学会第30回年次大会
[学会発表] JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング2024
- 著者名/発表者名
  大南英理, 栗田修平, 宮西大樹, 渡辺太郎
- 学会等名
  言語処理学会第30回年次大会
[学会発表] SlideAVSR: 視聴覚音声認識のための論文解説動画データセット2024
- 著者名/発表者名
  王昊, 栗田修平, 清水周一郎, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法2024
- 著者名/発表者名
  前田航希, 栗田修平, 宮西大樹, 岡崎直観
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習2024
- 著者名/発表者名
  田智哉, 栗田修平, 西村太一, 森信介
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証2024
- 著者名/発表者名
  榎本倫太郎, Arseny Tolmachev, 新妻巧朗, 栗田修平, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
[学会発表] Uzushio: A Distributed Huge Corpus Processor for the LLM Era2024
- 著者名/発表者名
  Arseny Tolmachev, Masayoshi Hayashi, Takuro Niitsuma, Rintaro Enomoto, Hao Wang, Shuhei Kurita, Daisuke Kawahara, Kazuma Takaoka, Yoshitaka Uchida
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地2023
- 著者名/発表者名
  宮西大樹, 東大地, 栗田修平, 川鍋一晃
- 学会等名
  2023年度人工知能学会全国大会（第37回）
[学会発表] Language and Robotics: Toward Building Robots Coexisting with Human Society Using Language Interface2023
- 著者名/発表者名
  Yutaka Nakamura, Shuhei Kurita, Koichiro Yoshino
- 学会等名
  Proceedings of the 13th IJCNLP: Tutorial Abstract
- 国際学会 / 招待講演
[学会発表] テキストからの実世界理解に向けて2023
- 著者名/発表者名
  栗田修平
- 学会等名
  第26回情報論的学習理論ワークショップ
- 招待講演
[学会発表] 実世界を認識して動作するための言語理解技術2023
- 著者名/発表者名
  栗田修平
- 学会等名
  NLP若手の会 (YANS) 第18回シンポジウム招待セッション
- 招待講演
[学会発表] 自然言語処理に用いられる深層学習 - 基礎から大規模言語モデルと応用までを解説 -2023
- 著者名/発表者名
  栗田修平
- 学会等名
  ロボット工学セミナー
- 招待講演

2023 年度 実施状況報告書

実世界に対応付いた言語モデルによる3D環境情報の理解と応用

研究代表者

栗田 修平 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans2024

著者名/発表者名

雑誌名

[雑誌論文] CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data2023

著者名/発表者名

雑誌名

[雑誌論文] Query-based Image Captioning from Multi-context 360° Images2023

著者名/発表者名

雑誌名

[雑誌論文] ARKitSceneRefer: Text-based Localization of Small Objects in Diverse Real-World 3D Indoor Scenes2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D2023

著者名/発表者名

雑誌名

[雑誌論文] 調理動作後の物体の視覚的状態予測を目指した Visual Recipe Flow データセットの構築と評価2023

著者名/発表者名

雑誌名

DOI

[学会発表] 都市環境における歩行者支援のための画像説明文生成用データセットの作成2024

著者名/発表者名

学会等名

[学会発表] JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング2024

著者名/発表者名

学会等名

[学会発表] SlideAVSR: 視聴覚音声認識のための論文解説動画データセット2024

著者名/発表者名

学会等名

[学会発表] 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法2024

著者名/発表者名

学会等名

[学会発表] 一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習2024

著者名/発表者名

学会等名

[学会発表] 大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証2024

著者名/発表者名

学会等名

[学会発表] Uzushio: A Distributed Huge Corpus Processor for the LLM Era2024

著者名/発表者名

学会等名

[学会発表] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地2023

著者名/発表者名

学会等名

[学会発表] Language and Robotics: Toward Building Robots Coexisting with Human Society Using Language Interface2023

著者名/発表者名

学会等名

[学会発表] テキストからの実世界理解に向けて2023

著者名/発表者名

学会等名

[学会発表] 実世界を認識して動作するための言語理解技術2023

著者名/発表者名

学会等名

[学会発表] 自然言語処理に用いられる深層学習 - 基礎から大規模言語モデルと応用までを解説 -2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

栗田修平国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (40809117)