研究課題/領域番号 |
23K20006
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 大阪大学 |
研究代表者 |
宮澤 和貴 大阪大学, 大学院基礎工学研究科, 助教 (10976187)
|
研究期間 (年度) |
2023-08-31 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 大規模言語モデル / 言語獲得 / モバイルマニピュレーター / 知能ロボット / マルチモーダル / コミュニケーション |
研究開始時の研究の概要 |
本研究では,実世界で言語を獲得するロボットの実現を目指す.近年の深層学習の発展により言語モデルの性能は大幅に向上した.高度な言語処理能力を持つ大規模言語モデルが実現され幅広く活用されている.こうした中,人間の生活を物理的に支援するロボットへの適用が期待される.しかし,大規模言語モデルは言語情報を入出力とするため,ロボットの身体や環境などの実世界情報を扱うことが難しい.そこで本研究では,大規模言語モデルと実世界情報を統合することでロボットの実世界に根差した言語獲得を目指す.移動と物体操作能力を備えたモバイルマニピュレータ型ロボットを用いて研究を行い,ロボットの新たな言語獲得の仕組みを考える.
|
研究実績の概要 |
本研究課題の目的は,大規模言語モデルと実世界情報を統合することで,ロボットの実世界に根差した言語獲得を実現することである.これを2台のモバイルマニピュレータを用いて行い,ロボット同士の言語を含むインタラクションを実現する.具体的な研究は,次の3つに分けられる.1)大規模言語モデルによる実世界の理解.2)ロボットの行動と大規模言語モデルの統合.3)実世界での言語を用いた他者とのインタラクション.今年度は特に,大規模言語モデルによる実世界の理解に重点を置き,その研究成果を国内学会で発表した.また,実験に用いるロボット本体を作成した. ロボットが実世界を理解するためには,ロボットが観測する視覚,聴覚,触覚情報などのマルチモーダル情報を扱うことが重要である.そこで,大規模言語モデルのマルチモーダル情報統合能力について検証を行った.具体的には,親子間のインタラクションを模した,ロボットと人のインタラクション実験で取得したマルチモーダルデータを用いた.このロボットが取得したマルチモーダル系列データを大規模言語モデルにより統合するモデルを作成した.このモデルに対して言語理解タスクと言語生成タスクを行い,言語情報と非言語情報の相互予測について評価した.実験の結果,大規模言語モデルは簡単なマルチモーダル系列データに対して言語情報と非言語情報を適切に統合して予測に利用できることが確認された. さらに,第41回日本ロボット学会学術講演会においてオーガナイズドセッション「OS20:大規模言語モデルとロボティクス」を開催した.このセッションでは,自然言語処理の専門家による基調講演1件と,一般発表7件が行われ,大規模言語モデルとロボティクスの接点について幅広く議論した.このセッションを通じて,関連する分野の研究者が知識の共有や意見の交換を行い,本研究課題を推進するうえでの重要な洞察を得られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,ロボットが取得したマルチモーダル系列データを大規模言語モデルにより統合するモデルを作成し,国内学会において発表した.また,第41回日本ロボット学会学術講演会においてオーガナイズドセッション「OS20:大規模言語モデルとロボティクス」を開催し,大規模言語モデルとロボティクスの接点について幅広く議論を行った.さらに,実験に利用するモバイルマニピュレーターを作成した.モバイルマニピュレーターには,長時間稼働が可能な大容量のバッテリーや演算能力の高い小型の計算機を搭載した.このシステムを用いて,今後,モバイルマニピュレーターを用いた実験に取り掛かる予定である.以上により,当初の計画に従い,おおむね順調に研究が進展したといえる.
|
今後の研究の推進方策 |
本年度は,大規模言語モデルによる実世界の理解に向けて,大規模言語モデルのマルチモーダル情報統合能力について検証を行った.また,実験に用いるロボット本体及びそのシステムを作成した.今後は,モバイルマニピュレーターへ作成したモデルの実装を進めると共に,研究の2段階目及び3段階目である,2)ロボットの行動と大規模言語モデルの統合.3)実世界での言語を用いた他者とのインタラクション,について研究を進め,ロボットの実世界に根差した言語獲得の実現を目指す.また近年,大規模言語モデルのみでなく,大規模視覚・言語モデルや,大規模視覚・言語・行動モデルなどのマルチモーダルモデルの研究も進んでいるため,大規模言語モデルのみでなく,それらのマルチモーダルモデルを組み込む形で,ロボットの言語獲得について研究を進めていく.
|