実世界を検索可能とするクロスモーダル言語処理基盤の構築
Project/Area Number |
23K28168
|
Project/Area Number (Other) |
23H03478 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Keio University |
Principal Investigator |
杉浦 孔明 慶應義塾大学, 理工学部(矢上), 教授 (60470473)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,590,000 (Direct Cost: ¥14,300,000、Indirect Cost: ¥4,290,000)
Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥8,450,000 (Direct Cost: ¥6,500,000、Indirect Cost: ¥1,950,000)
Fiscal Year 2023: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
|
Keywords | クロスモーダル言語処理 / 実世界検索エンジン / マルチモーダル説明生成 / 生活支援ロボット / マルチモーダル学習 / マルチモーダル検索 / 参照表現理解 / クロスモーダル言語生成 |
Outline of Research at the Start |
トランスフォーマを始めとする最近の深層学習手法は言語・画像処理に恩恵をもたらしたが、ロボティクスにおける多種多様なセンサの情報処理(マルチモーダル情報処理)への波及は不十分である。本研究では、マルチモーダル情報を分類・説明し、行動を生成するマルチモーダル深層学習手法の基盤研究を確立するとともに、生活支援ロボットへの工学的応用を推進する。具体的には、(a)マルチモーダル深層学習による実世界検索エンジンの構築、(b)注意機構に基づく動作のマルチモーダル説明生成、(c)汎用データの生活支援タスクへの転移学習と評価、の3つのサブテーマに関する研究を行う。
|
Outline of Annual Research Achievements |
本研究は、マルチモーダル情報を説明・分類し、行動生成を行うマルチモーダル学習技術を確立するとともに、介助犬レベルの支援を行う生活支援ロボットの構築を目的とする。本研究の到達目標は、(a)マルチモーダル学習による実世界検索エンジンの構築、(b)動作のマルチモーダル説明生成と評価、(c) 生活支援タスクにおける人機連携、の3点である。研究グループを3班に分け、実世界検索班・説明生成班・人機連携班として、本研究を遂行する。 実世界検索班は、本年度、ロボットが自然言語指示に基づき対象物体を検索するタスクを扱った。既存手法では複雑な参照表現を含む指示文に対する検索性能が低い、という問題があった。そこで我々は、 大規模言語モデルおよび基盤モデルに基づくマルチモーダル検索手法MultiRankItを構築した。REVERIEデータセットに基づく新規データセットを構築して性能評価を行い、ベースライン手法を超える性能を得た。 説明生成班では、生活支援ロボットが物体を配置する際の衝突を事前に予測し、その説明を生成するタスクに取り組んだ。既存手法では、衝突から連鎖して起こるイベントの生成品質が低いという問題があった。そこで、我々は、大規模言語モデルを用いたデータ拡張を行う言語的説明生成手法を構築した。新規データセットを構築し、提案手法がベースライン手法を上回ることを示した。また、既存の説明生成自動評価尺度は人間による評価と相関が低い、という問題に対して、シーングラフに基づく評価を行う自動評価尺度JaSPICEを構築した。 人機連携班では、human-in-the-loop設定において、ロボットが自然言語指示文に基づいて日常物体の検索および物体操作を行うシステムを構築した。World Robot Summitで規定された標準環境において実機実験を行い、タスク成功率80%を達成した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
関連成果がIEEEのジャーナルに2件、IEEE/RSJ IROS 2023に3件、CoNLL 2023(採択率28%)に1件、採択されるなど、学術的に重要な成果が得られている。
|
Strategy for Future Research Activity |
実世界検索班では、「AをBに移動させる」等のタスクを扱う。単純な手法ではAとBに関する全ての組み合わせが膨大になってしまうため、標準的な家庭内の物体数では400秒以上を必要とする。そこで本項目では、両者を1つのモデルで扱うためにスイッチ機構を持つ手法を構築することで、計算量のオーダを下げ100倍以上高速化する。 説明生成班は、説明生成手法およびその自動評価尺度構築に取り組む。大規模データセットを構築し、人間による評価との相関が高い尺度を構築する。 人機連携班は、これまでに構築したシステムを、RetrieveやCarryタスクに拡張する。さらに、状況や確信度に応じて最適な人機連携を可能とする。タスクとしては、生活支援ロボットに関する標準的タスクを用い、評価尺度はタスク成功率とする。最終的に、介助犬タスクの8割以上をカバーする。
|
Report
(1 results)
Research Products
(27 results)