2020 Fiscal Year Annual Research Report
Adversarial Data Augmentation for Multimodal Language Understanding
Project/Area Number |
20H04269
|
Research Institution | Keio University |
Principal Investigator |
杉浦 孔明 慶應義塾大学, 理工学部(矢上), 准教授 (60470473)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | クロスモーダル言語処理 / データ拡張 / 生活支援ロボット / マルチモーダル言語処理 / Sim2Real |
Outline of Annual Research Achievements |
本研究は、曖昧なユーザ指示に対するマルチモーダル言語理解・生成の基盤技術を確立するとともに、介助犬レベルのタスクを概ね実用レベルの精度で行う生活支援ロボットの構築を目的とする。本研究の到達目標は、(a) 敵対的データ拡張によるマルチモーダル言語理解、(b)マルチモーダル言語生成による学習データ大規模化、敵対的データ拡張の基盤技術確立、(c) Sim2Realアプローチによる転移学習と介助犬タスクでの評価、の3点である。研究グループを3班に分け、理解班・生成班・Sim2Real班として、本研究を遂行する。 本年度、生活支援ロボットによるマルチモーダル言語理解手法の高精度化を理解班は実施した。これまでに構築済みのMultimodal Target-Source Classifier (MTCM)を拡張し、Attention Branchを導入したマルチモーダル言語理解手法MTCM with Attention Branches (MTCM-AB)を構築した。標準データセットであるPFN-PICを用いて性能評価を行い、人間による予測精度と同等の精度を達成した。 生成班では、多様な状況に対して指示文を生成する手法を構築する。本年度は、Attention Branchをマルチモーダル言語生成に導入し、Attention Branch Encoder-Decoder Network (ABEN)を構築した。生活支援ロボットに関するマルチモーダルコーパスを構築するとともに、標準的な評価尺度を用いてベースライン手法との比較を行い、ABENの有効性を実証した。 Sim2Real班では、生活支援ロボットに関する大規模データ収集するシステムUnity Automatic Labeling Tool (UniALT)を構築した。当該システムを用いて、100万枚のラベル付き画像を収集した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度構築したMTCM with Attention Branches (MTCM-AB)は、標準データセット上でで人間による予測精度と同等の精度を達成している。この成果は、IEEE Robotics and Automation Letters (RAL)誌に採択された。また、構築したAttention Branch Encoder-Decoder Network (ABEN)に関する成果も、IEEE RAL誌に採択されている。Sim2Real班は、生活支援ロボットのタスク空間を高品質なVR空間で構築し、間取りや物体をランダムに変更して大規模なデータを収集するシステムUniALTを構築した。当該システムを用いて、100万枚のラベル付き画像を収集した。これは人間のラベラーが行う約800日分の作業に相当する。 これらの理由から、計画はおおむね順調に進展していると考えられる。
|
Strategy for Future Research Activity |
次年度は、生活支援ロボットに関するマルチモーダル言語理解データセットを構築し、ベースライン手法との比較を行う。最終年度までに、生成班が構築するデータ生成手法を用いて指示文を生成させ、言語生成・理解のスパイラル的改善を目指す。 本年度構築したABENは「キッチンへ行って」のような移動表現を扱うことができない。よって、生成班では、移動通過点ごとのカメラ画像を入力とする拡張を行い、他の介助犬タスクに適用する。最終年度までに、実機およびシミュレーションにおいて有効性を評価する。 Sim2Real班では、生活支援ロボットの学習データを収集する。代表者は、Retrieveタスクの一部を行う手法PonNetを構築し良好な結果を得ており、PonNetを拡張して他の生活支援ロボットタスクに適用する。また、構築済みシミュレータの3Dモデルを増強し、高品質かつ多様なカスタマイズを施した環境を準備する。次に、実機への展開を行う。転移学習の枠組みを用いて、シミュレーションデータでの学習済みモデルを実機データに適用するとともに、実機データの拡張を行う。ロボットプラットフォームとして、生活支援ロボットHSRを用いる。最終年度までに、介助犬タスクの8割以上をカバーする。
|