2021 Fiscal Year Annual Research Report

ロボットの統合認知アーキテクチャによる実世界に根ざした言語的思考の実現

Research Project

Project/Area Number	19J23364
Research Institution	Osaka University
Principal Investigator	宮澤和貴大阪大学, 基礎工学研究科, 特別研究員(DC1)
Project Period (FY)	2019-04-25 – 2022-03-31
Keywords	Transformer / 発達ロボティクス / 記号創発ロボティクス / マルチモーダル / 世界モデル / 自然言語処理
Outline of Annual Research Achievements	当該年度は，課題の目標であるロボットの高次認知機能(言語的思考)の実現に向けて，Transformerを利用した深層学習モデルの構築に注力して研究をおこなった．具体的には，複数の事前学習モデルを利用したTransformer-basedなマルチモーダル学習モデルを提案した．マルチモーダルデータは単モーダルデータと比較するとデータ収集のコストが高く，一般的に大規模にデータを集めることは困難である．そこで，各モダリティの入力に事前学習されたTransformer-basedエンコーダーを利用し，その出力を別のTransformerにより統合するモデルを提案した．提案モデルの有効性を検証するために，音声と言語データとしてCMU-MOSIデータセットを，画像と言語データとしてMM-IMDbデータセットを利用し，２つのマルチモーダルデータセットに対して分類タスクをおこなった．その結果，各データセットにおいて高い分類精度を示した．さらに，学習データ量の減少に対しても頑健性を示した．実際のロボットでは，大規模なデータ収集は難しいため，このように少量のマルチモーダルデータに対しても高い性能を発揮する手法は非常に重要である．この研究成果はIEEE Accessに記載された． Transformerはロボットのモデルにも利用され多様なモデルが提案されている．そこで，Transformerのロボット利用に関して，タスクやモデルについて調査を行い，Transformerのロボット利用の現状や問題点，今後の方向性をまとめた．調査は，統合的タスク・ナビゲーション・マニピュレーション・センサ統合・言語指示・実ロボット利用の６つの視点から行った．これら６つの要素から構成されるタスクと，タスクを実現するためのモデルをまとめた．この調査結果はサーベイ論文としてジャーナルに投稿予定である．
Research Progress Status	令和3年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和3年度が最終年度であるため、記入しない。

Research Products
(2 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results)

[Journal Article] Simple and Effective Multimodal Learning Based on Pre-Trained Transformer Models2022
- Author(s)
  Miyazawa Kazuki、Kyuragi Yuta、Nagai Takayuki
- Journal Title
  
  IEEE Access
  
  Volume: 10 Pages: 29821～29833
- DOI
  10.1109/ACCESS.2022.3159346
- Peer Reviewed / Open Access
[Presentation] GPT-2を用いた人の動作予測2021
- Author(s)
  宮澤和貴, 井上輝也, 長井隆行
- Organizer
  第35回人工知能学会全国大会