2023 Fiscal Year Annual Research Report

安全性と信頼性を備えたロボット強化学習の技術基盤の創出

Research Project

Project/Area Number	21H03522
Research Institution	Nara Institute of Science and Technology
Principal Investigator	松原崇充奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	強化学習 / 試行錯誤の安全性 / 学習の信頼性 / エントロピー正則化 / 単調方策改善 / ドメインランダム化強化学習
Outline of Annual Research Achievements	2023年度（最終年度）には、これまで開発してきた安全性と信頼性を備えたロボット強化学習基盤の理論・アルゴリズムをさらに発展させることに注力した。また構築した実機実験環境を活用して、実ロボットを用いた実験検証も実施した。 (1) 異なる環境での学習安定化：昨年度において学習の信頼性を向上させるために導出したExpected Policy Advantage（EPA）と単調増加性を指向した方策学習則をベースに、物理パラメータなどの変更により異なる環境下で学習された方策・価値関数を活用する強化学習の安定化アルゴリズムを開発した。異なる環境間のギャップが小さい場合には、それらを近似的に同一と見なして学習結果を適切な度合いで再利用する仕組みが採用されている。ドメインランダム化強化学習のシナリオについて、様々な物理シミュレーション課題に提案手法を適用した結果、許容されるランダム化範囲の拡大とsim-to-sim成功率の改善を確認した。 (2) 実機実験環境の構築および実験検証：構築した物理接触を伴う作業用のロボットアーム環境を用いた実験検証を実施した。新たに設計したビーズボールの山崩し作業の学習タスクを通じて、先述の提案手法の有効性をsim-to-real実験により検証した。簡易シミュレーションと広範なパラメータランダム化の中で提案手法により獲得された方策は、実環境においても高い作業成功率を示した。一方、学習信頼性を担保する機能を無効化した比較手法は、低い成功率に留まった。その他、水中ドローンを用いた水中物体操作環境に対して、試行錯誤の安全性を考慮した強化学習を適用し、期待通りの結果を得ることができた。これらの結果より、開発した強化学習基盤の実機環境における有効性、複数環境に適用可能な汎用性について確認された。
Research Progress Status	令和5年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和5年度が最終年度であるため、記入しない。

Research Products
(2 results)

All 2023

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 1 results)

[Journal Article] Cyclic policy distillation: Sample-efficient sim-to-real reinforcement learning with domain randomization2023
- Author(s)
  Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara
- Journal Title
  
  Robotics and Autonomous Systems
  
  Volume: 165 Pages: 104425
- DOI
  10.1016/j.robot.2023.104425
- Peer Reviewed
[Journal Article] Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning2023
- Author(s)
  Lingwei Zhu and Takamitsu Matsubara
- Journal Title
  
  Machine Learning
  
  Volume: 112 Pages: 4527-4562
- DOI
  10.1007/s10994-023-06368-z
- Peer Reviewed / Open Access / Int'l Joint Research

2023 Fiscal Year Annual Research Report

安全性と信頼性を備えたロボット強化学習の技術基盤の創出

Principal Investigator

松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)

Research Products

[Journal Article] Cyclic policy distillation: Sample-efficient sim-to-real reinforcement learning with domain randomization2023

Author(s)

Journal Title

DOI

[Journal Article] Cautious policy programming: exploiting KL regularization for monotonic policy improvement in reinforcement learning2023

Author(s)

Journal Title

DOI

松原崇充奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)