実世界を検索可能とするクロスモーダル言語処理基盤の構築

Research Project

Project/Area Number	23K28168
Project/Area Number (Other)	23H03478 (2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2023)
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Keio University
Principal Investigator	杉浦孔明慶應義塾大学, 理工学部(矢上), 教授 (60470473)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥18,590,000 (Direct Cost: ¥14,300,000、Indirect Cost: ¥4,290,000) Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2024: ¥8,450,000 (Direct Cost: ¥6,500,000、Indirect Cost: ¥1,950,000) Fiscal Year 2023: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Keywords	クロスモーダル言語処理 / 実世界検索エンジン / マルチモーダル説明生成 / 生活支援ロボット / マルチモーダル学習 / マルチモーダル検索 / 参照表現理解 / クロスモーダル言語生成
Outline of Research at the Start	トランスフォーマを始めとする最近の深層学習手法は言語・画像処理に恩恵をもたらしたが、ロボティクスにおける多種多様なセンサの情報処理（マルチモーダル情報処理）への波及は不十分である。本研究では、マルチモーダル情報を分類・説明し、行動を生成するマルチモーダル深層学習手法の基盤研究を確立するとともに、生活支援ロボットへの工学的応用を推進する。具体的には、(a)マルチモーダル深層学習による実世界検索エンジンの構築、(b)注意機構に基づく動作のマルチモーダル説明生成、(c)汎用データの生活支援タスクへの転移学習と評価、の３つのサブテーマに関する研究を行う。
Outline of Annual Research Achievements	本研究は、マルチモーダル情報を説明・分類し、行動生成を行うマルチモーダル学習技術を確立するとともに、介助犬レベルの支援を行う生活支援ロボットの構築を目的とする。本研究の到達目標は、(a)マルチモーダル学習による実世界検索エンジンの構築、(b)動作のマルチモーダル説明生成と評価、(c) 生活支援タスクにおける人機連携、の３点である。研究グループを３班に分け、実世界検索班・説明生成班・人機連携班として、本研究を遂行する。実世界検索班は、本年度、ロボットが自然言語指示に基づき対象物体を検索するタスクを扱った。既存手法では複雑な参照表現を含む指示文に対する検索性能が低い、という問題があった。そこで我々は、大規模言語モデルおよび基盤モデルに基づくマルチモーダル検索手法MultiRankItを構築した。REVERIEデータセットに基づく新規データセットを構築して性能評価を行い、ベースライン手法を超える性能を得た。説明生成班では、生活支援ロボットが物体を配置する際の衝突を事前に予測し、その説明を生成するタスクに取り組んだ。既存手法では、衝突から連鎖して起こるイベントの生成品質が低いという問題があった。そこで、我々は、大規模言語モデルを用いたデータ拡張を行う言語的説明生成手法を構築した。新規データセットを構築し、提案手法がベースライン手法を上回ることを示した。また、既存の説明生成自動評価尺度は人間による評価と相関が低い、という問題に対して、シーングラフに基づく評価を行う自動評価尺度JaSPICEを構築した。人機連携班では、human-in-the-loop設定において、ロボットが自然言語指示文に基づいて日常物体の検索および物体操作を行うシステムを構築した。World Robot Summitで規定された標準環境において実機実験を行い、タスク成功率80%を達成した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 関連成果がIEEEのジャーナルに２件、IEEE/RSJ IROS 2023に３件、CoNLL 2023（採択率28%）に１件、採択されるなど、学術的に重要な成果が得られている。
Strategy for Future Research Activity	実世界検索班では、「AをBに移動させる」等のタスクを扱う。単純な手法ではAとBに関する全ての組み合わせが膨大になってしまうため、標準的な家庭内の物体数では400秒以上を必要とする。そこで本項目では、両者を１つのモデルで扱うためにスイッチ機構を持つ手法を構築することで、計算量のオーダを下げ100倍以上高速化する。説明生成班は、説明生成手法およびその自動評価尺度構築に取り組む。大規模データセットを構築し、人間による評価との相関が高い尺度を構築する。人機連携班は、これまでに構築したシステムを、RetrieveやCarryタスクに拡張する。さらに、状況や確信度に応じて最適な人機連携を可能とする。タスクとしては、生活支援ロボットに関する標準的タスクを用い、評価尺度はタスク成功率とする。最終的に、介助犬タスクの８割以上をカバーする。

Report

(1 results)

2023 Annual Research Report

Research Products
(27 results)

All 2024 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (24 results) (of which Int'l Joint Research: 6 results) Remarks (1 results)

[Journal Article] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine2024
- Author(s)
  K. Kaneda, S. Nagashima, R. Korekata, M. Kambara and K. Sugiura
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 9 Issue: 3 Pages: 2088-2095
- DOI
  10.1109/lra.2024.3352363
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] Switching Text-Based Image Encoders for Captioning Images With Text2023
- Author(s)
  Ueda Arisa、Yang Wei、Sugiura Komei
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 55706-55715
- DOI
  10.1109/access.2023.3282444
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Presentation] Polos: 画像キャプション生成における教師あり自動評価尺度2024
- Author(s)
  和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Annual Research Report
[Presentation] PORTER: 最適輸送を用いたPolygon Matching に基づく参照表現セグメンテーション2024
- Author(s)
  九曜克之, 飯岡雄偉, 杉浦孔明
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Annual Research Report
[Presentation] Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space2023
- Author(s)
  M. Kambara and K. Sugiura
- Organizer
  CVPR 2023 Embodied AI Workshop
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training2023
- Author(s)
  K. Kaneda, R. Korekata, Y. Wada, S. Nagashima, M. Kambara, Y. Iioka, H. Matsuo, Y. Imai, T. Nishimura, and K. Sugiura
- Organizer
  CVPR 2023 Embodied AI Workshop
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks2023
- Author(s)
  R. Korekata, M. Kambara, Y. Yoshida, S. Ishikawa, Y. Kawasaki, M. Takahashi, and K. Sugiura
- Organizer
  IEEE/RSJ IROS
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] Prototypical Contrastive Transfer Learning for Multimodal Language Understanding2023
- Author(s)
  S. Otsuki, S. Ishikawa, and K. Sugiura
- Organizer
  IEEE/RSJ IROS
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions2023
- Author(s)
  Y. Iioka, Y. Yoshida, Y. Wada, S. Hatanaka, and K. Sugiura
- Organizer
  IEEE/RSJ IROS
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models2023
- Author(s)
  Y. Wada, K. Kaneda, and K. Sugiura
- Organizer
  CoNLL
- Related Report
  2023 Annual Research Report
- Int'l Joint Research
[Presentation] シーングラフに基づく画像キャプション生成モデルの自動評価と解析2023
- Author(s)
  田中励雄, 和田唯我, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] 物体再配置タスクのためのCo-Scale Cross-Attentional Transformer2023
- Author(s)
  松尾榛夏, 石川慎太朗, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] Switching Head-Tail Funnel UNITERによる対象物体および配置目標に関する指示文理解と物体操作2023
- Author(s)
  是方諒介, 神原元就, 吉田悠, 石川慎太朗, 川崎陽祐, 髙橋正樹, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] Nearest Neighbor Future Captioning:物体配置タスクにおける衝突リスクに関する説明文生成2023
- Author(s)
  小松拓実, 神原元就, 畑中駿平, 松尾榛夏, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル言語理解タスクにおけるDual ProtoNCEに基づく転移学習2023
- Author(s)
  小槻誠太郎, 石川慎太朗, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] 生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション2023
- Author(s)
  飯岡雄偉, 吉田悠, 和田唯我, 畑中駿平, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] Learning to Rank Physical Objects: ランキング学習による物理世界検索エンジン2023
- Author(s)
  兼田寛大, 神原元就, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル言語処理に基づくfetch-and-carryタスクの自動化と実行2023
- Author(s)
  神原元就, 杉浦孔明
- Organizer
  2023年度人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル言語理解タスクにおけるDual ProtoNCEに基づくドメイン適応と大規模言語モデルを用いた指示文理解2023
- Author(s)
  松田一起, 小槻誠太郎, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成2023
- Author(s)
  平野慎之助, 小松拓実, 和田唯我, 神原元就, 畑中駿平, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] 視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出2023
- Author(s)
  西村喬行, 松尾榛夏, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル基盤モデルによる対象物体抽出に基づく日常物体検索および物体操作2023
- Author(s)
  長嶋隼矢, 是方諒介, 兼田寛大, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル基盤モデルと拡散モデルに基づく対象物体の参照表現セグメンテーション2023
- Author(s)
  今井悠人, 飯岡雄偉, 畑中駿平, 九曜克之, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] DialMAT: 敵対的摂動に基づく対話的Vision-and-Language Navigation2023
- Author(s)
  是方諒介, 和田唯我, 兼田寛大, 長嶋隼矢, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] MultiRankIt: ランキング学習と大規模言語モデルによる物理世界検索2023
- Author(s)
  兼田寛大, 長嶋隼矢, 是方諒介, 杉浦孔明
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] マルチモーダル情報に基づく画像説明文の教師あり自動評価2023
- Author(s)
  齋藤大地, 和田唯我, 兼田寛大, 杉浦孔明
- Organizer
  第31回インタラクティブ情報アクセスと可視化マイニング研究会
- Related Report
  2023 Annual Research Report
[Remarks] 杉浦孔明研究室ウェブサイト
- URL
  https://smilab.org/
- Related Report
  2023 Annual Research Report

実世界を検索可能とするクロスモーダル言語処理基盤の構築

Principal Investigator

杉浦 孔明 慶應義塾大学, 理工学部(矢上), 教授 (60470473)

¥18,590,000 (Direct Cost: ¥14,300,000、Indirect Cost: ¥4,290,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Switching Text-Based Image Encoders for Captioning Images With Text2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] Polos: 画像キャプション生成における教師あり自動評価尺度2024

Author(s)

Organizer

Related Report

[Presentation] PORTER: 最適輸送を用いたPolygon Matching に基づく参照表現セグメンテーション2024

Author(s)

Organizer

Related Report

[Presentation] Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space2023

Author(s)

Organizer

Related Report

[Presentation] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training2023

Author(s)

Organizer

Related Report

[Presentation] Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks2023

Author(s)

Organizer

Related Report

[Presentation] Prototypical Contrastive Transfer Learning for Multimodal Language Understanding2023

Author(s)

Organizer

Related Report

[Presentation] Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions2023

Author(s)

Organizer

Related Report

[Presentation] JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models2023

Author(s)

Organizer

Related Report

[Presentation] シーングラフに基づく画像キャプション生成モデルの自動評価と解析2023

Author(s)

Organizer

Related Report

[Presentation] 物体再配置タスクのためのCo-Scale Cross-Attentional Transformer2023

Author(s)

Organizer

Related Report

[Presentation] Switching Head-Tail Funnel UNITERによる対象物体および配置目標に関する指示文理解と物体操作2023

Author(s)

Organizer

Related Report

[Presentation] Nearest Neighbor Future Captioning:物体配置タスクにおける衝突リスクに関する説明文生成2023

Author(s)

Organizer

Related Report

[Presentation] マルチモーダル言語理解タスクにおけるDual ProtoNCEに基づく転移学習2023

Author(s)

Organizer

Related Report

[Presentation] 生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション2023

Author(s)

Organizer

Related Report

[Presentation] Learning to Rank Physical Objects: ランキング学習による物理世界検索エンジン2023

Author(s)

Organizer

Related Report

[Presentation] マルチモーダル言語処理に基づくfetch-and-carryタスクの自動化と実行2023

Author(s)

杉浦孔明慶應義塾大学, 理工学部(矢上), 教授 (60470473)