Adversarial Data Augmentation for Multimodal Language Understanding

Research Project

Project/Area Number	20H04269
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Single-year Grants
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Keio University
Principal Investigator	Sugiura Komei 慶應義塾大学, 理工学部(矢上), 教授 (60470473)
Project Period (FY)	2020-04-01 – 2023-03-31
Project Status	Completed (Fiscal Year 2022)
Budget Amount *help	¥17,550,000 (Direct Cost: ¥13,500,000、Indirect Cost: ¥4,050,000) Fiscal Year 2022: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000) Fiscal Year 2021: ¥7,930,000 (Direct Cost: ¥6,100,000、Indirect Cost: ¥1,830,000) Fiscal Year 2020: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Keywords	マルチモーダル言語処理 / クロスモーダル言語生成 / データ拡張 / 生活支援ロボット / Sim2Real / クロスモーダル言語処理 / 機械知能 / 知能ロボティクス / 敵対的データ拡張
Outline of Research at the Start	本研究では、要支援者とその家族を時間的拘束から解放するために、日常タスクを支援する生活支援ロボットを実現する。生活支援ロボットのハードウェアは最近標準化されたものの、曖昧な指示を理解する精度は不十分である。そこで本研究では、多様なデータを敵対的に生成・分類・変換するデータ拡張手法（敵対的データ拡張）の基礎研究を確立するとともに、マルチモーダル言語理解・生成へ適用して生活支援ロボット上に実装するなどの工学的応用を推進する。
Outline of Final Research Achievements	In this study, our objectives are (a) robust multimodal language understanding through adversarial data augmentation, (b) multimodal language generation, and (c) evaluation in the assistance dog tasks. We first focused on the Vision-and-Language Navigation task and developed the Momentum-based Adversarial Training (MAT) algorithm. We applied MAT to the standard benchmark test, ALFRED, and obtained successful results. We also worked on the task of generating descriptions about future situations. The main novelty of our proposed method lies in the use of Relational Self-Attention as the attention mechanism. Experimental results show that our method outperformed existing methods in standard metrics. We applied the multimodal language understanding and generation methods into a simulator, enabling on-the-fly instruction generation. As a result, we established a robot evaluation framework that does not require manual intervention in task generation, execution, and evaluation.
Academic Significance and Societal Importance of the Research Achievements	本研究では，要支援者とその家族を時間的拘束から解放するために，日常タスクを支援する生活支援ロボットの言語理解技術構築を目的とする．生活支援ロボットのハードウェアは最近標準化されたものの，曖昧な指示を理解する精度は不十分である．本研究では，マルチモーダル言語理解に関する標準データセット上で世界最高精度を達成するとともに，タスク生成・実行・評価のすべてにおいて人手を要しない生活支援ロボット評価フレームワークを世界で初めて構築した．

Report

(4 results)

2022 Annual Research Report Final Research Report ( PDF )
2021 Annual Research Report
2020 Annual Research Report

Research Products
(37 results)

All 2023 2022 2021 2020 Other

All Journal Article (7 results) (of which Peer Reviewed: 4 results) Presentation (26 results) (of which Int'l Joint Research: 7 results, Invited: 2 results) Remarks (4 results)

[Journal Article] Affective Image Captioning for Visual Artworks using Emotion-based Cross-Attention Mechanisms2023
- Author(s)
  S. Ishikawa and K. Sugiura
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 24527-24534
- DOI
  10.1109/access.2023.3255887
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions2021
- Author(s)
  Kambara Motonari、Sugiura Komei
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 6 Issue: 4 Pages: 8371-8378
- DOI
  10.1109/lra.2021.3107026
- Related Report
  2021 Annual Research Report
[Journal Article] Target-Dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots2021
- Author(s)
  Ishikawa Shintaro、Sugiura Komei
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 6 Issue: 4 Pages: 8401-8408
- DOI
  10.1109/lra.2021.3108500
- Related Report
  2021 Annual Research Report
[Journal Article] CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation2021
- Author(s)
  Magassouba Aly、Sugiura Komei、Kawai Hisashi
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 6 Issue: 4 Pages: 6258-6265
- DOI
  10.1109/lra.2021.3092686
- Related Report
  2021 Annual Research Report
[Journal Article] Predicting and attending to damaging collisions for placing everyday objects in photo-realistic simulations2021
- Author(s)
  Magassouba Aly、Sugiura Komei、Nakayama Angelica、Hirakawa Tsubasa、Yamashita Takayoshi、Fujiyoshi Hironobu、Kawai Hisashi
- Journal Title
  
  Advanced Robotics
  
  Volume: - Issue: 12 Pages: 1-13
- DOI
  10.1080/01691864.2021.1913446
- Related Report
  2020 Annual Research Report
- Peer Reviewed
[Journal Article] Alleviating the Burden of Labeling: Sentence Generation by Attention Branch Encoder?Decoder Network2020
- Author(s)
  Ogura Tadashi、Magassouba Aly、Sugiura Komei、Hirakawa Tsubasa、Yamashita Takayoshi、Fujiyoshi Hironobu、Kawai Hisashi
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 5 Issue: 4 Pages: 5945-5952
- DOI
  10.1109/lra.2020.3010735
- Related Report
  2020 Annual Research Report
- Peer Reviewed
[Journal Article] A Multimodal Target-Source Classifier With Attention Branches to Understand Ambiguous Instructions for Fetching Daily Objects2020
- Author(s)
  Magassouba Aly、Sugiura Komei、Kawai Hisashi
- Journal Title
  
  IEEE Robotics and Automation Letters
  
  Volume: 5 Issue: 2 Pages: 532-539
- DOI
  10.1109/lra.2019.2963649
- Related Report
  2020 Annual Research Report
- Peer Reviewed
[Presentation] Shared Transformer Encoder with Mask-based 3D Model Estimation for Container Mass Estimation2022
- Author(s)
  T. Matsubara, S.Otsuki, Y. Wada, H. Matsuo, T. Komatsu, Y. Iioka, K. Sugiura, H. Saito
- Organizer
  IEEE ICASSP
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 生活支援ロボットによる物体操作タスクにおけるFunnel UNITERに基づく指示文理解2022
- Author(s)
  吉田悠, 石川慎太朗, 杉浦孔明
- Organizer
  2022年度人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 日常タスクにおける将来イベントのクロスモーダル説明文生成2022
- Author(s)
  神原元就, 杉浦孔明
- Organizer
  2022年度人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] Vision-and-Language Navigationタスクにおける敵対的サブゴール生成2022
- Author(s)
  石川慎太朗, 杉浦孔明
- Organizer
  2022年度人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] Moment-based Adversarial Training for Embodied Language Comprehension2022
- Author(s)
  S. Ishikawa, K. Sugiura
- Organizer
  IEEE ICPR
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 物体配置タスクにおける危険性のクロスモーダル説明生成2022
- Author(s)
  飯岡雄偉, 神原元就, 杉浦孔明
- Organizer
  第40回日本ロボット学会学術講演会
- Related Report
  2022 Annual Research Report
[Presentation] 物体操作タスクにおけるSwitching Funnel UNITERによる対象物体および配置目標に関する指示文理解2022
- Author(s)
  是方諒介, 吉田悠, 石川慎太朗, 杉浦孔明
- Organizer
  第40回日本ロボット学会学術講演会
- Related Report
  2022 Annual Research Report
[Presentation] TDP-MATに基づく実画像を対象とした物体操作指示理解2022
- Author(s)
  小槻誠太郎, 石川慎太朗, 杉浦孔明
- Organizer
  第40回日本ロボット学会学術講演会
- Related Report
  2022 Annual Research Report
[Presentation] 記号接地されたfetch-and-carryタスクの自動化と実行2022
- Author(s)
  神原元就, 杉浦孔明
- Organizer
  第40回日本ロボット学会学術講演会
- Related Report
  2022 Annual Research Report
[Presentation] 物体配置タスクにおける構造的知識を用いた衝突予測および視覚的説明生成2022
- Author(s)
  松尾榛夏, 畑中駿平, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
- Organizer
  第40回日本ロボット学会学術講演会
- Related Report
  2022 Annual Research Report
[Presentation] Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks2022
- Author(s)
  M. Kambara, K.Sugiura
- Organizer
  IEEE ICIP
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] Switching Funnel UNITER: Multimodal Instruction Comprehension for Object Manipulation Tasks2022
- Author(s)
  R. Korekata, Y. Yoshida, S. Ishikawa, K. Sugiura
- Organizer
  IEEE/RSJ IROS
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] Collision Prediction and Visual Explanation Generation Using Structural Knowledge in Object Placement Tasks2022
- Author(s)
  H. Matsuo, S. Hatanaka, A. Ueda, T. Hirakawa, T. Yamashita, H. Fujiyoshi, K. Sugiura
- Organizer
  IEEE/RSJ IROS
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] JaSPICE: 日本語における述語項構造に基づく画像キャプション生成モデルの自動評価尺度2022
- Author(s)
  和田唯我, 兼田寛大, 杉浦孔明
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Annual Research Report
[Presentation] マルチモーダルOCR特徴を用いたDynamic Pointer Networkによるテキスト付き画像説明文生成2022
- Author(s)
  植田有咲, Wei Yang, 杉浦孔明
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Annual Research Report
[Presentation] ゲート付き相互注意を用いたエンコーダ・デコーダによる感情に基づく絵画説明文生成2022
- Author(s)
  石川慎太朗, 杉浦孔明
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Annual Research Report
[Presentation] Multimodal Encoder with Gated Cross-attention for Text-VQA Tasks2022
- Author(s)
  W. Yang, A. Ueda, and K. Sugiura
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Annual Research Report
[Presentation] Visual and Linguistic Explanations in Semantic Machine Intelligence2022
- Author(s)
  K. Sugiura
- Organizer
  Shonan Meeting No. 166
- Related Report
  2022 Annual Research Report
- Int'l Joint Research / Invited
[Presentation] Towards Superhuman and Explainable AI for Human-AI Co-Evolution2022
- Author(s)
  K. Sugiura
- Organizer
  AIST Artificial Intelligence Research Center International Symposium
- Related Report
  2022 Annual Research Report
- Int'l Joint Research / Invited
[Presentation] 生活支援ロボットによる物体配置タスクにおけるTransformer PonNetに基づく危険性予測および可視化2021
- Author(s)
  植田有咲, Aly Magassouba, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
- Organizer
  2021年度人工知能学会全国大会
- Related Report
  2021 Annual Research Report
[Presentation] Case Relation Transformerに基づく対象物体及び目標領域の参照表現を含む物体操作指示文生成2021
- Author(s)
  神原元就, 杉浦孔明
- Organizer
  2021年度人工知能学会全国大会
- Related Report
  2021 Annual Research Report
[Presentation] Target-dependent UNITERに基づく対象物体に関する参照表現を含む物体操作指示理解2021
- Author(s)
  石川慎太朗, 杉浦孔明
- Organizer
  2021年度人工知能学会全国大会
- Related Report
  2021 Annual Research Report
[Presentation] Bilingual Case Relation Transformerに基づく複数言語による物体操作指示文生成2021
- Author(s)
  兼田寛大, 神原元就, 杉浦孔明
- Organizer
  第39回日本ロボット学会学術講演会
- Related Report
  2021 Annual Research Report
[Presentation] 生活支援ロボットによる物体配置タスクにおける危険性予測および視覚的説明生成2021
- Author(s)
  畑中駿平, 上田雄斗, 植田有咲, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明
- Organizer
  第39回日本ロボット学会学術講演会
- Related Report
  2021 Annual Research Report
[Presentation] 物体指示理解タスクにおけるクロスモーダル言語生成に基づくデータ拡張2021
- Author(s)
  飯田紡, 九曜克之, 石川慎太朗, 杉浦孔明
- Organizer
  第39回日本ロボット学会学術講演会
- Related Report
  2021 Annual Research Report
[Presentation] Multimodal Attention Branch Networkに基づく把持命令文の生成2020
- Author(s)
  小椋忠志, Magassouba Aly, 杉浦孔明, 平川翼, 山下隆義, 藤吉弘亘, 河井恒
- Organizer
  2020年度人工知能学会全国大会
- Related Report
  2020 Annual Research Report
[Remarks] 杉浦孔明研究室：研究内容
- URL
  https://smilab.org/research/
- Related Report
  2022 Annual Research Report
[Remarks] 杉浦孔明研究室ウェブサイト
- URL
  https://smilab.org/
- Related Report
  2021 Annual Research Report
[Remarks] Semantic Machine Intelligence Laboratory
- URL
  https://smilab.org
- Related Report
  2020 Annual Research Report
[Remarks] Komei Sugiura
- URL
  https://komeisugiura.jp
- Related Report
  2020 Annual Research Report

Adversarial Data Augmentation for Multimodal Language Understanding

Principal Investigator

Sugiura Komei 慶應義塾大学, 理工学部(矢上), 教授 (60470473)

¥17,550,000 (Direct Cost: ¥13,500,000、Indirect Cost: ¥4,050,000)

Report

Research Products

[Journal Article] Affective Image Captioning for Visual Artworks using Emotion-based Cross-Attention Mechanisms2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Target-Dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Predicting and attending to damaging collisions for placing everyday objects in photo-realistic simulations2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Alleviating the Burden of Labeling: Sentence Generation by Attention Branch Encoder?Decoder Network2020

Author(s)

Journal Title

DOI

Related Report

[Journal Article] A Multimodal Target-Source Classifier With Attention Branches to Understand Ambiguous Instructions for Fetching Daily Objects2020

Author(s)

Journal Title

DOI

Related Report

[Presentation] Shared Transformer Encoder with Mask-based 3D Model Estimation for Container Mass Estimation2022

Author(s)

Organizer

Related Report

[Presentation] 生活支援ロボットによる物体操作タスクにおけるFunnel UNITERに基づく指示文理解2022

Author(s)

Organizer

Related Report

[Presentation] 日常タスクにおける将来イベントのクロスモーダル説明文生成2022

Author(s)

Organizer

Related Report

[Presentation] Vision-and-Language Navigationタスクにおける敵対的サブゴール生成2022

Author(s)

Organizer

Related Report

[Presentation] Moment-based Adversarial Training for Embodied Language Comprehension2022

Author(s)

Organizer

Related Report

[Presentation] 物体配置タスクにおける危険性のクロスモーダル説明生成2022

Author(s)

Organizer

Related Report

[Presentation] 物体操作タスクにおけるSwitching Funnel UNITERによる対象物体および配置目標に関する指示文理解2022

Author(s)

Organizer

Related Report

[Presentation] TDP-MATに基づく実画像を対象とした物体操作指示理解2022

Author(s)

Organizer

Related Report

[Presentation] 記号接地されたfetch-and-carryタスクの自動化と実行2022

Author(s)

Organizer

Related Report

[Presentation] 物体配置タスクにおける構造的知識を用いた衝突予測および視覚的説明生成2022

Author(s)

Organizer