• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

実世界を検索可能とするクロスモーダル言語処理基盤の構築

Research Project

Project/Area Number 23K28168
Project/Area Number (Other) 23H03478 (2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2023)
Section一般
Review Section Basic Section 61050:Intelligent robotics-related
Research InstitutionKeio University

Principal Investigator

杉浦 孔明  慶應義塾大学, 理工学部(矢上), 教授 (60470473)

Project Period (FY) 2023-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥18,590,000 (Direct Cost: ¥14,300,000、Indirect Cost: ¥4,290,000)
Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥8,450,000 (Direct Cost: ¥6,500,000、Indirect Cost: ¥1,950,000)
Fiscal Year 2023: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Keywordsクロスモーダル言語処理 / 実世界検索エンジン / マルチモーダル説明生成 / 生活支援ロボット / マルチモーダル学習 / マルチモーダル検索 / 参照表現理解 / クロスモーダル言語生成
Outline of Research at the Start

トランスフォーマを始めとする最近の深層学習手法は言語・画像処理に恩恵をもたらしたが、ロボティクスにおける多種多様なセンサの情報処理(マルチモーダル情報処理)への波及は不十分である。本研究では、マルチモーダル情報を分類・説明し、行動を生成するマルチモーダル深層学習手法の基盤研究を確立するとともに、生活支援ロボットへの工学的応用を推進する。具体的には、(a)マルチモーダル深層学習による実世界検索エンジンの構築、(b)注意機構に基づく動作のマルチモーダル説明生成、(c)汎用データの生活支援タスクへの転移学習と評価、の3つのサブテーマに関する研究を行う。

Outline of Annual Research Achievements

本研究は、マルチモーダル情報を説明・分類し、行動生成を行うマルチモーダル学習技術を確立するとともに、介助犬レベルの支援を行う生活支援ロボットの構築を目的とする。本研究の到達目標は、(a)マルチモーダル学習による実世界検索エンジンの構築、(b)動作のマルチモーダル説明生成と評価、(c) 生活支援タスクにおける人機連携、の3点である。研究グループを3班に分け、実世界検索班・説明生成班・人機連携班として、本研究を遂行する。
実世界検索班は、本年度、ロボットが自然言語指示に基づき対象物体を検索するタスクを扱った。既存手法では複雑な参照表現を含む指示文に対する検索性能が低い、という問題があった。そこで我々は、 大規模言語モデルおよび基盤モデルに基づくマルチモーダル検索手法MultiRankItを構築した。REVERIEデータセットに基づく新規データセットを構築して性能評価を行い、ベースライン手法を超える性能を得た。
説明生成班では、生活支援ロボットが物体を配置する際の衝突を事前に予測し、その説明を生成するタスクに取り組んだ。既存手法では、衝突から連鎖して起こるイベントの生成品質が低いという問題があった。そこで、我々は、大規模言語モデルを用いたデータ拡張を行う言語的説明生成手法を構築した。新規データセットを構築し、提案手法がベースライン手法を上回ることを示した。また、既存の説明生成自動評価尺度は人間による評価と相関が低い、という問題に対して、シーングラフに基づく評価を行う自動評価尺度JaSPICEを構築した。
人機連携班では、human-in-the-loop設定において、ロボットが自然言語指示文に基づいて日常物体の検索および物体操作を行うシステムを構築した。World Robot Summitで規定された標準環境において実機実験を行い、タスク成功率80%を達成した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

関連成果がIEEEのジャーナルに2件、IEEE/RSJ IROS 2023に3件、CoNLL 2023(採択率28%)に1件、採択されるなど、学術的に重要な成果が得られている。

Strategy for Future Research Activity

実世界検索班では、「AをBに移動させる」等のタスクを扱う。単純な手法ではAとBに関する全ての組み合わせが膨大になってしまうため、標準的な家庭内の物体数では400秒以上を必要とする。そこで本項目では、両者を1つのモデルで扱うためにスイッチ機構を持つ手法を構築することで、計算量のオーダを下げ100倍以上高速化する。
説明生成班は、説明生成手法およびその自動評価尺度構築に取り組む。大規模データセットを構築し、人間による評価との相関が高い尺度を構築する。
人機連携班は、これまでに構築したシステムを、RetrieveやCarryタスクに拡張する。さらに、状況や確信度に応じて最適な人機連携を可能とする。タスクとしては、生活支援ロボットに関する標準的タスクを用い、評価尺度はタスク成功率とする。最終的に、介助犬タスクの8割以上をカバーする。

Report

(1 results)
  • 2023 Annual Research Report
  • Research Products

    (27 results)

All 2024 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (24 results) (of which Int'l Joint Research: 6 results) Remarks (1 results)

  • [Journal Article] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine2024

    • Author(s)
      K. Kaneda, S. Nagashima, R. Korekata, M. Kambara and K. Sugiura
    • Journal Title

      IEEE Robotics and Automation Letters

      Volume: 9 Issue: 3 Pages: 2088-2095

    • DOI

      10.1109/lra.2024.3352363

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Switching Text-Based Image Encoders for Captioning Images With Text2023

    • Author(s)
      Ueda Arisa、Yang Wei、Sugiura Komei
    • Journal Title

      IEEE Access

      Volume: 11 Pages: 55706-55715

    • DOI

      10.1109/access.2023.3282444

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Presentation] Polos: 画像キャプション生成における教師あり自動評価尺度2024

    • Author(s)
      和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] PORTER: 最適輸送を用いたPolygon Matching に基づく参照表現セグメンテーション2024

    • Author(s)
      九曜克之, 飯岡雄偉, 杉浦孔明
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space2023

    • Author(s)
      M. Kambara and K. Sugiura
    • Organizer
      CVPR 2023 Embodied AI Workshop
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training2023

    • Author(s)
      K. Kaneda, R. Korekata, Y. Wada, S. Nagashima, M. Kambara, Y. Iioka, H. Matsuo, Y. Imai, T. Nishimura, and K. Sugiura
    • Organizer
      CVPR 2023 Embodied AI Workshop
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks2023

    • Author(s)
      R. Korekata, M. Kambara, Y. Yoshida, S. Ishikawa, Y. Kawasaki, M. Takahashi, and K. Sugiura
    • Organizer
      IEEE/RSJ IROS
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Prototypical Contrastive Transfer Learning for Multimodal Language Understanding2023

    • Author(s)
      S. Otsuki, S. Ishikawa, and K. Sugiura
    • Organizer
      IEEE/RSJ IROS
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions2023

    • Author(s)
      Y. Iioka, Y. Yoshida, Y. Wada, S. Hatanaka, and K. Sugiura
    • Organizer
      IEEE/RSJ IROS
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models2023

    • Author(s)
      Y. Wada, K. Kaneda, and K. Sugiura
    • Organizer
      CoNLL
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] シーングラフに基づく画像キャプション生成モデルの自動評価と解析2023

    • Author(s)
      田中励雄, 和田唯我, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 物体再配置タスクのためのCo-Scale Cross-Attentional Transformer2023

    • Author(s)
      松尾榛夏, 石川慎太朗, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Switching Head-Tail Funnel UNITERによる対象物体および配置目標に関する指示文理解と物体操作2023

    • Author(s)
      是方諒介, 神原元就, 吉田悠, 石川慎太朗, 川崎陽祐, 髙橋正樹, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Nearest Neighbor Future Captioning:物体配置タスクにおける衝突リスクに関する説明文生成2023

    • Author(s)
      小松拓実, 神原元就, 畑中駿平, 松尾榛夏, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル言語理解タスクにおけるDual ProtoNCEに基づく転移学習2023

    • Author(s)
      小槻誠太郎, 石川慎太朗, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション2023

    • Author(s)
      飯岡雄偉, 吉田悠, 和田唯我, 畑中駿平, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Learning to Rank Physical Objects: ランキング学習による物理世界検索エンジン2023

    • Author(s)
      兼田寛大, 神原元就, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル言語処理に基づくfetch-and-carryタスクの自動化と実行2023

    • Author(s)
      神原元就, 杉浦孔明
    • Organizer
      2023年度 人工知能学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル言語理解タスクにおけるDual ProtoNCEに基づくドメイン適応と大規模言語モデルを用いた指示文理解2023

    • Author(s)
      松田一起, 小槻誠太郎, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成2023

    • Author(s)
      平野慎之助, 小松拓実, 和田唯我, 神原元就, 畑中駿平, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出2023

    • Author(s)
      西村喬行, 松尾榛夏, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル基盤モデルによる対象物体抽出に基づく日常物体検索および物体操作2023

    • Author(s)
      長嶋隼矢, 是方諒介, 兼田寛大, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル基盤モデルと拡散モデルに基づく対象物体の参照表現セグメンテーション2023

    • Author(s)
      今井悠人, 飯岡雄偉, 畑中駿平, 九曜克之, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] DialMAT: 敵対的摂動に基づく対話的Vision-and-Language Navigation2023

    • Author(s)
      是方諒介, 和田唯我, 兼田寛大, 長嶋隼矢, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] MultiRankIt: ランキング学習と大規模言語モデルによる物理世界検索2023

    • Author(s)
      兼田寛大, 長嶋隼矢, 是方諒介, 杉浦孔明
    • Organizer
      第41回日本ロボット学会学術講演会
    • Related Report
      2023 Annual Research Report
  • [Presentation] マルチモーダル情報に基づく画像説明文の教師あり自動評価2023

    • Author(s)
      齋藤大地, 和田唯我, 兼田寛大, 杉浦孔明
    • Organizer
      第31回インタラクティブ情報アクセスと可視化マイニング研究会
    • Related Report
      2023 Annual Research Report
  • [Remarks] 杉浦孔明研究室ウェブサイト

    • URL

      https://smilab.org/

    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi