• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

双方向マルチモーダル言語理解及び生成モデルの構築と生活支援ロボットへの応用

研究課題

研究課題/領域番号 23KJ1917
研究種目

特別研究員奨励費

配分区分基金
応募区分国内
審査区分 小区分61010:知覚情報処理関連
研究機関慶應義塾大学

研究代表者

神原 元就  慶應義塾大学, 理工学研究科(矢上), 特別研究員(DC1)

研究期間 (年度) 2023-04-25 – 2026-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
3,000千円 (直接経費: 3,000千円)
2025年度: 1,000千円 (直接経費: 1,000千円)
2024年度: 1,000千円 (直接経費: 1,000千円)
2023年度: 1,000千円 (直接経費: 1,000千円)
キーワードDomestic Service Robot / Vision & Language
研究開始時の研究の概要

本研究ではマルチモーダル言語処理のロボティクスへの応用研究を推進する.自然言語によるコミュニケーションが可能な生活支援ロボットの実用化は,介助者不足という社会課題に対して有望な解決策の一つである.一方で,現在自然言語を用いてコミュニケーションを行いつつ日常タスクを実行可能なロボットは多くない.そこで,本研究は,マルチモーダル言語処理を生活支援ロボットに応用し,自然言語指示によってタスクを実行する手法の構築を目的とする.

研究実績の概要

本年度は,当初の研究計画に則り,1.「自然言語指示文のためのマルチモーダル言語理解」,2.「指示文生成,説明性向上のためのクロスモーダル言語生成」, 3.「生活支援ロボットによる日常タスクの実行」について研究に取り組んだ.
今年度の成果の1つ目として,課題1において取り組んだDialFREDタスクに関するコンペティションが,コンピュータビジョン分野における最大の国際会議であるCVPR 2023のワークショップにおいて開催され,我々の提案手法が優勝を達成したことが挙げられる.本ベンチマークは代表的なロボットの自然言語指示理解ベンチマークであり,提案手法における新規性は他のタスクにおいても適用可能であることから,重要な成果であると言える.
また,2つ目の成果として,アメリカの研究所において実施した半年間の研究インターンシップでは,人間の料理に関するデモ動画から,マニピュレータのための分割されたタスク系列を生成するマルチモーダル言語生成研究に取り組んだ.結果として,提案手法は既存手法を上回る結果を得ることができた.このタスクは比較的新しく,今後の更なる発展が望まれる点で重要な進捗であった.このインターンシップにおける成果は,ロボット分野におけるトップ国際会議の一つであるICRA 2024でのワークショップにおいて発表予定である.
さらに,3つ目の成果として,研究項目1及び3において,実機データを用いた実験において,提案手法の有効性を確認する結果を複数得ることができた.これらの結果はJSAI 2024で発表予定である他,ロボット分野におけるトップ国際会議の一つであるIROS 2024に投稿済みであり,現在査読中である.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

本研究の3つの研究項目である,1.「自然言語指示文のためのマルチモーダル言語理解」,2.「指示文生成,説明性向上のためのクロスモーダル言語生成」, 3.「生活支援ロボットによる日常タスクの実行」については,当初の想定以上に進展することができた.
今年度は課題1に関連する研究として,ユーザによって与えられた指示文を理解・タスク分割し最終的にロボットで物体操作タスクを行うDialFREDタスクに取り組んだ.本タスクにおいて,特徴量にノイズを加えることで特徴量の微細な振動に対応し汎化性能を高めるための機構であるMATモジュールを導入した手法を提案した.このモジュールは,モデルの汎用性向上において非常に有効な手段であり,これは今後他の研究における手法においても活用しうることから,非常に重要な進展であると言える.
また,課題2について,人間の料理タスク等のデモ動画からマニピュレータのためのタスク系列生成手法を提案した.既存手法は模倣学習的なアプローチが多い中,あらゆる環境における人間のデモンストレーションから直接的に動作系列を生成できるというアプローチは画期的な方法であり,これを応用させることで,他のタスクにおいても同様のアプローチで解決できるというアイデアを得ることができた.さらに,最新の短文自動評価尺度を用いたキャプション生成手法に関する研究にも取り組んでおり,来年度はこの性能をさらに向上させていくことを考えている.
3つめの課題に関しては,家庭内環境においてどこに物体があるかの情報及び画像を効率的に収集するための手法を提案した.これは,今後ユーザの指示を効率的に実行するための基盤として重要な技術であり,他タスクにおいて基盤的な活用が期待される.

今後の研究の推進方策

今後の研究の推進方策として,本年度に取り組み始めた各研究項目における研究課題をさらに発展的なタスクへと推し進めていくことを考えている.
研究項目1「自然言語指示文のためのマルチモーダル言語理解」においては,本年度取り組んだDialFREDタスクに関連し,自然言語指示文理解モデルに基づく物体操作タスクにおいて,連続的な移動が可能なシミュレータを構築し,その中でfree-formな指示文を用いたタスクに取り組むことを予定している.また,研究項目2.「指示文生成,説明性向上のためのクロスモーダル言語生成」においては,上記の物体操作タスクのためのfree-formな指示文生成モデルの提案を行う.これによって,人間に近い品質の指示文生成を自動化し,データセット構築の完全自動化を目指していく.
最後に,研究項目3.「生活支援ロボットによる日常タスクの実行」については,上記の各研究項目での研究成果を,実機に適用し,実世界での実験を行うことで,各自然言語処理手法及び生活支援ロボットの橋渡しを実証していく予定である.

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (9件)

すべて 2024 2023 その他

すべて 国際共同研究 (1件) 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 3件)

  • [国際共同研究] MERL(米国)

    • 関連する報告書
      2023 実施状況報告書
  • [雑誌論文] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine2024

    • 著者名/発表者名
      K. Kaneda, S. Nagashima, R. Korekata, M. Kambara and K. Sugiura
    • 雑誌名

      IEEE Robotics and Automation Letters

      巻: 9 号: 3 ページ: 2088-2095

    • DOI

      10.1109/lra.2024.3352363

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [学会発表] マルチモーダル基盤モデルと劣モジュラ最適化に基づく移動ロボットの環境探索2024

    • 著者名/発表者名
      松尾榛夏, 神原元就, 杉浦孔明
    • 学会等名
      2024年度 人工知能学会全国大会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定2024

    • 著者名/発表者名
      齋藤大地, 神原元就, 九曜克之, 杉浦孔明
    • 学会等名
      2024年度 人工知能学会全国大会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション2024

    • 著者名/発表者名
      西村喬行, 九曜克之, 神原元就, 杉浦孔明
    • 学会等名
      2024年度 人工知能学会全国大会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training2023

    • 著者名/発表者名
      Kanta Kaneda, Ryosuke Korekata, Yuiga Wada, Shunya Nagashima, Motonari Kambara, Yui Iioka, Haruka Matsuo, Yuto Imai, Takayuki Nishimura, and Komei Sugiura
    • 学会等名
      CVPR 2023 Embodied AI Workshop
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space2023

    • 著者名/発表者名
      Motonari Kambara, Komei Sugiura
    • 学会等名
      CVPR 2023 Embodied AI Workshop
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks2023

    • 著者名/発表者名
      R. Korekata, M. Kambara, Y. Yoshida, S. Ishikawa, Y. Kawasaki, M. Takahashi, and K. Sugiura
    • 学会等名
      IROS 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成2023

    • 著者名/発表者名
      平野慎之助, 小松拓実, 和田唯我, 神原元就, 畑中駿平, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
    • 学会等名
      第41回日本ロボット学会学術講演会
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-04-26   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi