当該年度は,課題の目標であるロボットの高次認知機能(言語的思考)の実現に向けて,Transformerを利用した深層学習モデルの構築に注力して研究をおこなった. 具体的には,複数の事前学習モデルを利用したTransformer-basedなマルチモーダル学習モデルを提案した.マルチモーダルデータは単モーダルデータと比較するとデータ収集のコストが高く,一般的に大規模にデータを集めることは困難である.そこで,各モダリティの入力に事前学習されたTransformer-basedエンコーダーを利用し,その出力を別のTransformerにより統合するモデルを提案した.提案モデルの有効性を検証するために,音声と言語データとしてCMU-MOSIデータセットを,画像と言語データとしてMM-IMDbデータセットを利用し,2つのマルチモーダルデータセットに対して分類タスクをおこなった.その結果,各データセットにおいて高い分類精度を示した.さらに,学習データ量の減少に対しても頑健性を示した.実際のロボットでは,大規模なデータ収集は難しいため,このように少量のマルチモーダルデータに対しても高い性能を発揮する手法は非常に重要である.この研究成果はIEEE Accessに記載された. Transformerはロボットのモデルにも利用され多様なモデルが提案されている.そこで,Transformerのロボット利用に関して,タスクやモデルについて調査を行い,Transformerのロボット利用の現状や問題点,今後の方向性をまとめた.調査は,統合的タスク・ナビゲーション・マニピュレーション・センサ統合・言語指示・実ロボット利用の6つの視点から行った.これら6つの要素から構成されるタスクと,タスクを実現するためのモデルをまとめた.この調査結果はサーベイ論文としてジャーナルに投稿予定である.
|