2021 Fiscal Year Annual Research Report
Adversarial Data Augmentation for Multimodal Language Understanding
Project/Area Number |
20H04269
|
Research Institution | Keio University |
Principal Investigator |
杉浦 孔明 慶應義塾大学, 理工学部(矢上), 准教授 (60470473)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | クロスモーダル言語処理 / データ拡張 / 生活支援ロボット / マルチモーダル言語処理 |
Outline of Annual Research Achievements |
本研究は、曖昧なユーザ指示に対するマルチモーダル言語理解・生成の基盤技術を確立するとともに、介助犬レベルのタスクを概ね実用レベルの精度で行う生活支援ロボットの構築を目的とする。本研究の到達目標は、(a) 敵対的データ拡張によるマルチモーダル言語理解、(b)マルチモーダル言語生成による学習データ大規模化、敵対的データ拡張の基盤技術確立、(c) Sim2Realアプローチによる転移学習と介助犬タスクでの評価、の3点である。研究グループを3班に分け、理解班・生成班・Sim2Real班として、本研究を遂行する。 理解班は、本年度、Target-dependent UNITERを構築した。既存研究では、命令文に加え、命令の対象物体を含む全体画像を入力していたが、それだけでは物体間の関係性の学習が難しく、命令文が参照表現を含む場合に対象物体の特定が困難であった。そこで本研究では、対象物体候補の画像・位置情報を扱う構造を導入した。標準データセットであるPFN-PICを用いて性能評価を行い、ベースライン手法を超える性能を得た。 生成班では、本年度は、クロスモーダル言語生成モデルによる物体移動指示文の生成に取り組んだ。具体的には、"Move the blue flip-flop to the lower left box"等の文を画像から生成するCase Relation Transformer(CRT)を提案した。CRTはCase Relation Blockの導入により、対象物体及び目標領域を扱うことが可能である。ベースライン手法との比較実験及び人間による評価を行い、ベースライン手法を主要尺度で上回ることを示した。 Sim2Real班は、本年度、生成班が構築した指示文生成手法をシミュレータに導入し、on-the-flyで指示文を生成するタスク自動生成システムの構築に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度構築したTarget-dependent UNITERは、標準データセット上で昨年度構築したMTCM with Attention Branches (MTCM-AB)を超える精度を達成している。この成果は、IEEE Robotics and Automation Letters (RAL)誌に採択された。また、同じく本年度構築したCase Relation Transformer(CRT)に関する成果も、IEEE RAL誌に採択されている。CRTについては、被験者実験において人手で作成した指示文とほぼ同等と言える品質を達成している。また、Sim2Real班は、ランダムに収集した画像からCRTを用いて指示文を生成するタスク自動生成システムの概念検証を行った。 これらの理由から、計画は当初の計画以上に進展していると考えられる。
|
Strategy for Future Research Activity |
これまで本研究では、多様なデータを敵対的に生成・分類・変換するデータ拡張手法(敵対的データ拡張)の基盤研究を進めてきた。最終年度は、敵対的データ拡張に関する基盤研究を確立するとともに、マルチモーダル言語理解・生成へ適用して生活支援ロボット上に実装するなどの工学的応用を推進する。 最終年度は、シミュレータ上で敵対的データ拡張の応用システムをこうちくするとともに、実機への展開を行う。転移学習の枠組みを用いて、シミュレーションデータでの学習済みモデルを実機データに適用し、Sim2Real知識転移を行う。ロボットプラットフォームとして、生活支援ロボットHSRを用いる。
|