2022 Fiscal Year Annual Research Report
Adversarial Data Augmentation for Multimodal Language Understanding
Project/Area Number |
20H04269
|
Research Institution | Keio University |
Principal Investigator |
杉浦 孔明 慶應義塾大学, 理工学部(矢上), 教授 (60470473)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | クロスモーダル言語処理 / データ拡張 / 生活支援ロボット / マルチモーダル言語処理 |
Outline of Annual Research Achievements |
本研究では,(a)敵対的データ拡張によるマルチモーダル言語理解,(b)マルチモーダル言語生成による学習データ大規模化,敵対的データ拡張の基盤技術確立,(c)Sim2Realアプローチによる転移学習と介助犬タスクでの評価,を目的とする. 本年度,理解班では,Vision-and-Language Navigation (VLN) タスクにおいて,未知環境における指示文理解のロバスト化に取り組み,敵対的摂動更新アルゴリズム Momentum-based Adversarial Training (MAT) を構築した.標準的ベンチマークテストであるALFREDにMATを適用し,ベースライン手法を上回る性能を得た. 生成班では,これまでに構築したマルチモーダル言語生成手法を拡張し,動画を入力として将来の状況に関する説明文を生成するタスクに取り組んだ.提案手法Relational Future Captioning Modelの主な新規性はRelational Self-Attention(RSA[Kim et al. NeurIPS21])を注意機構として用いたRSA Encoderにある.料理動画の説明文生成の標準データセットであるYouCook2,および生活支援ロボットによる物体配置に関するデータセットに提案手法を適用し,BLEU・CIDEr-D等の標準尺度において既存手法を上回る結果を得た. Sim2Real班は,これまでに構築した指示文生成手法を生活支援ロボットシミュレータに導入し,on-the-flyで指示文を生成可能とした.これにより,人手による指示文生成を不要とした.また,タスク実行においては,構築済みのマルチモーダル言語理解モデルを導入した.これにより,タスク生成・実行・評価のすべてにおいて人手を要しない生活支援ロボット評価フレームワークを世界で初めて構築した.
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|