Project/Area Number |
23KJ1917
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Keio University |
Principal Investigator |
神原 元就 慶應義塾大学, 理工学研究科(矢上), 特別研究員(DC1)
|
Project Period (FY) |
2023-04-25 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2025: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2024: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2023: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | Domestic Service Robot / Vision & Language |
Outline of Research at the Start |
本研究ではマルチモーダル言語処理のロボティクスへの応用研究を推進する.自然言語によるコミュニケーションが可能な生活支援ロボットの実用化は,介助者不足という社会課題に対して有望な解決策の一つである.一方で,現在自然言語を用いてコミュニケーションを行いつつ日常タスクを実行可能なロボットは多くない.そこで,本研究は,マルチモーダル言語処理を生活支援ロボットに応用し,自然言語指示によってタスクを実行する手法の構築を目的とする.
|
Outline of Annual Research Achievements |
本年度は,当初の研究計画に則り,1.「自然言語指示文のためのマルチモーダル言語理解」,2.「指示文生成,説明性向上のためのクロスモーダル言語生成」, 3.「生活支援ロボットによる日常タスクの実行」について研究に取り組んだ. 今年度の成果の1つ目として,課題1において取り組んだDialFREDタスクに関するコンペティションが,コンピュータビジョン分野における最大の国際会議であるCVPR 2023のワークショップにおいて開催され,我々の提案手法が優勝を達成したことが挙げられる.本ベンチマークは代表的なロボットの自然言語指示理解ベンチマークであり,提案手法における新規性は他のタスクにおいても適用可能であることから,重要な成果であると言える. また,2つ目の成果として,アメリカの研究所において実施した半年間の研究インターンシップでは,人間の料理に関するデモ動画から,マニピュレータのための分割されたタスク系列を生成するマルチモーダル言語生成研究に取り組んだ.結果として,提案手法は既存手法を上回る結果を得ることができた.このタスクは比較的新しく,今後の更なる発展が望まれる点で重要な進捗であった.このインターンシップにおける成果は,ロボット分野におけるトップ国際会議の一つであるICRA 2024でのワークショップにおいて発表予定である. さらに,3つ目の成果として,研究項目1及び3において,実機データを用いた実験において,提案手法の有効性を確認する結果を複数得ることができた.これらの結果はJSAI 2024で発表予定である他,ロボット分野におけるトップ国際会議の一つであるIROS 2024に投稿済みであり,現在査読中である.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究の3つの研究項目である,1.「自然言語指示文のためのマルチモーダル言語理解」,2.「指示文生成,説明性向上のためのクロスモーダル言語生成」, 3.「生活支援ロボットによる日常タスクの実行」については,当初の想定以上に進展することができた. 今年度は課題1に関連する研究として,ユーザによって与えられた指示文を理解・タスク分割し最終的にロボットで物体操作タスクを行うDialFREDタスクに取り組んだ.本タスクにおいて,特徴量にノイズを加えることで特徴量の微細な振動に対応し汎化性能を高めるための機構であるMATモジュールを導入した手法を提案した.このモジュールは,モデルの汎用性向上において非常に有効な手段であり,これは今後他の研究における手法においても活用しうることから,非常に重要な進展であると言える. また,課題2について,人間の料理タスク等のデモ動画からマニピュレータのためのタスク系列生成手法を提案した.既存手法は模倣学習的なアプローチが多い中,あらゆる環境における人間のデモンストレーションから直接的に動作系列を生成できるというアプローチは画期的な方法であり,これを応用させることで,他のタスクにおいても同様のアプローチで解決できるというアイデアを得ることができた.さらに,最新の短文自動評価尺度を用いたキャプション生成手法に関する研究にも取り組んでおり,来年度はこの性能をさらに向上させていくことを考えている. 3つめの課題に関しては,家庭内環境においてどこに物体があるかの情報及び画像を効率的に収集するための手法を提案した.これは,今後ユーザの指示を効率的に実行するための基盤として重要な技術であり,他タスクにおいて基盤的な活用が期待される.
|
Strategy for Future Research Activity |
今後の研究の推進方策として,本年度に取り組み始めた各研究項目における研究課題をさらに発展的なタスクへと推し進めていくことを考えている. 研究項目1「自然言語指示文のためのマルチモーダル言語理解」においては,本年度取り組んだDialFREDタスクに関連し,自然言語指示文理解モデルに基づく物体操作タスクにおいて,連続的な移動が可能なシミュレータを構築し,その中でfree-formな指示文を用いたタスクに取り組むことを予定している.また,研究項目2.「指示文生成,説明性向上のためのクロスモーダル言語生成」においては,上記の物体操作タスクのためのfree-formな指示文生成モデルの提案を行う.これによって,人間に近い品質の指示文生成を自動化し,データセット構築の完全自動化を目指していく. 最後に,研究項目3.「生活支援ロボットによる日常タスクの実行」については,上記の各研究項目での研究成果を,実機に適用し,実世界での実験を行うことで,各自然言語処理手法及び生活支援ロボットの橋渡しを実証していく予定である.
|