研究課題/領域番号 |
19J23364
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 大阪大学 |
研究代表者 |
宮澤 和貴 大阪大学, 基礎工学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
3,100千円 (直接経費: 3,100千円)
2021年度: 1,000千円 (直接経費: 1,000千円)
2020年度: 1,000千円 (直接経費: 1,000千円)
2019年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | Transformer / 発達ロボティクス / 記号創発ロボティクス / マルチモーダル / 世界モデル / 自然言語処理 / 強化学習 / 機械学習 |
研究開始時の研究の概要 |
深層学習に代表される人工知能技術の発展により,自動運転などの機械による知的活動が可能になりつつある。そのなかで、人間の日常生活を支援するパートナーロボットに対する期待も高まっているが,依然としてそのようなロボットは実現されていない. このようなロボットには,実世界や言語を理解して思考する機能と、他者とコミュニケーションを行う機能が重要である. そこで,本研究では経験に基づいて知能を獲得する認知モデルにおいて,高次認知機能および社会的機能を統合することで,ロボットによる実世界に根ざした言語的思考を実現することを目標とする.
|
研究実績の概要 |
当該年度は,課題の目標であるロボットの高次認知機能(言語的思考)の実現に向けて,Transformerを利用した深層学習モデルの構築に注力して研究をおこなった. 具体的には,複数の事前学習モデルを利用したTransformer-basedなマルチモーダル学習モデルを提案した.マルチモーダルデータは単モーダルデータと比較するとデータ収集のコストが高く,一般的に大規模にデータを集めることは困難である.そこで,各モダリティの入力に事前学習されたTransformer-basedエンコーダーを利用し,その出力を別のTransformerにより統合するモデルを提案した.提案モデルの有効性を検証するために,音声と言語データとしてCMU-MOSIデータセットを,画像と言語データとしてMM-IMDbデータセットを利用し,2つのマルチモーダルデータセットに対して分類タスクをおこなった.その結果,各データセットにおいて高い分類精度を示した.さらに,学習データ量の減少に対しても頑健性を示した.実際のロボットでは,大規模なデータ収集は難しいため,このように少量のマルチモーダルデータに対しても高い性能を発揮する手法は非常に重要である.この研究成果はIEEE Accessに記載された. Transformerはロボットのモデルにも利用され多様なモデルが提案されている.そこで,Transformerのロボット利用に関して,タスクやモデルについて調査を行い,Transformerのロボット利用の現状や問題点,今後の方向性をまとめた.調査は,統合的タスク・ナビゲーション・マニピュレーション・センサ統合・言語指示・実ロボット利用の6つの視点から行った.これら6つの要素から構成されるタスクと,タスクを実現するためのモデルをまとめた.この調査結果はサーベイ論文としてジャーナルに投稿予定である.
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|