安全性と信頼性を備えたロボット強化学習の技術基盤の創出

研究課題

研究課題/領域番号	21H03522
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	奈良先端科学技術大学院大学
研究代表者	松原崇充奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円) 2023年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円) 2022年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円) 2021年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
キーワード	強化学習 / 試行錯誤 / 安全性 / 信頼性 / エントロピー正則化 / 単調方策改善 / ロボットラーニング / 試行錯誤の安全性 / 学習の信頼性 / ドメインランダム化強化学習
研究開始時の研究の概要	本研究の目的は、環境や道具との物理的接触を伴う作業を学習可能なロボット強化学習の技術基盤の確立である。サイバー世界を指向する現行の強化学習の枠組みでは、試行錯誤の際、不意の物理接触・衝突に対して故障・損傷を防ぐ「安全性」、学習により行動規則を確実に改善する「信頼性」が備わっていない。本研究では「安全性」と「信頼性」を備えた実世界ロボット指向の理論および技術基盤の確立を狙う。
研究成果の概要	本研究では、ロボットが環境や道具との接触を伴う物理的作業を学習する際に要求される安全性と信頼性を備えた強化学習技術基盤を提案した。特に、試行錯誤時における衝突リスクの低減による安全性や、経験サンプル不足等による方策改善時の方策振動を抑制する信頼性を実現するための理論やアルゴリズムを開発した。さらに実ロボットを用いた複数の物理接触を含む作業タスクに適用し、その有効性を検証した。
研究成果の学術的意義や社会的意義	本研究では、労働力不足の問題が深刻化する人口減少や超高齢社会において、ロボットを効果的に活用するための強化学習技術基盤を開発した。その成果により、ロボットが環境や道具との物理的接触を伴う作業を、より安全かつ効率的に学習可能なった。今後は、部品組み立てや調理など、実世界の様々な産業やサービスへの応用が期待される。この技術は、ロボットの普及と実用化を促進し、社会的にも大きな意義を持つと考えられる。

報告書

(4件)

研究成果
(5件)

すべて 2023 2022 2021

すべて雑誌論文 (3件) (うち国際共著 1件、査読あり 3件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 2件)

[雑誌論文] Cyclic policy distillation: Sample-efficient sim-to-real reinforcement learning with domain randomization2023
- 著者名/発表者名
  Kadokawa Yuki、Zhu Lingwei、Tsurumine Yoshihisa、Matsubara Takamitsu
- 雑誌名
  
  Robotics and Autonomous Systems
  
  巻: 165 ページ: 104425-104437
- DOI
  10.1016/j.robot.2023.104425
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning2023
- 著者名/発表者名
  Lingwei Zhu and Takamitsu Matsubara
- 雑誌名
  
  Machine Learning
  
  巻: 112 号: 11 ページ: 4527-4562
- DOI
  10.1007/s10994-023-06368-z
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Goal-aware generative adversarial imitation learning from imperfect demonstration for robotic cloth manipulation2022
- 著者名/発表者名
  Tsurumine Yoshihisa、Matsubara Takamitsu
- 雑誌名
  
  Robotics and Autonomous Systems
  
  巻: 158 ページ: 104264-104264
- DOI
  10.1016/j.robot.2022.104264
- 関連する報告書
  2022 実績報告書
- 査読あり
[学会発表] Cautious Actor-Critic2021
- 著者名/発表者名
  Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara
- 学会等名
  The 13th Asian Conference on Machine Learning (ACML)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning2021
- 著者名/発表者名
  Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara
- 学会等名
  The 13th Asian Conference on Machine Learning (ACML)
- 関連する報告書
  2021 実績報告書
- 国際学会

安全性と信頼性を備えたロボット強化学習の技術基盤の創出

研究代表者

松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)

17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)

報告書

研究成果

[雑誌論文] Cyclic policy distillation: Sample-efficient sim-to-real reinforcement learning with domain randomization2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Goal-aware generative adversarial imitation learning from imperfect demonstration for robotic cloth manipulation2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Cautious Actor-Critic2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning2021

著者名/発表者名

学会等名

関連する報告書

松原崇充奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)