安全性と信頼性を備えたロボット強化学習の技術基盤の創出
Project/Area Number |
21H03522
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2023: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Fiscal Year 2021: ¥7,540,000 (Direct Cost: ¥5,800,000、Indirect Cost: ¥1,740,000)
|
Keywords | 強化学習 / 試行錯誤の安全性 / 学習の信頼性 / エントロピー正則化 / 単調方策改善 / ドメインランダム化強化学習 / ロボットラーニング / 安全性 / 信頼性 |
Outline of Research at the Start |
本研究の目的は、環境や道具との物理的接触を伴う作業を学習可能なロボット強化学習の技術基盤の確立である。サイバー世界を指向する現行の強化学習の枠組みでは、試行錯誤の際、不意の物理接触・衝突に対して故障・損傷を防ぐ「安全性」、学習により行動規則を確実に改善する「信頼性」が備わっていない。本研究では「安全性」と「信頼性」を備えた実世界ロボット指向の理論および技術基盤の確立を狙う。
|
Outline of Annual Research Achievements |
2023年度(最終年度)には、これまで開発してきた安全性と信頼性を備えたロボット強化学習基盤の理論・アルゴリズムをさらに発展させることに注力した。また構築した実機実験環境を活用して、実ロボットを用いた実験検証も実施した。
(1) 異なる環境での学習安定化:昨年度において学習の信頼性を向上させるために導出したExpected Policy Advantage(EPA)と単調増加性を指向した方策学習則をベースに、物理パラメータなどの変更により異なる環境下で学習された方策・価値関数を活用する強化学習の安定化アルゴリズムを開発した。異なる環境間のギャップが小さい場合には、それらを近似的に同一と見なして学習結果を適切な度合いで再利用する仕組みが採用されている。ドメインランダム化強化学習のシナリオについて、様々な物理シミュレーション課題に提案手法を適用した結果、許容されるランダム化範囲の拡大とsim-to-sim成功率の改善を確認した。
(2) 実機実験環境の構築および実験検証:構築した物理接触を伴う作業用のロボットアーム環境を用いた実験検証を実施した。新たに設計したビーズボールの山崩し作業の学習タスクを通じて、先述の提案手法の有効性をsim-to-real実験により検証した。簡易シミュレーションと広範なパラメータランダム化の中で提案手法により獲得された方策は、実環境においても高い作業成功率を示した。一方、学習信頼性を担保する機能を無効化した比較手法は、低い成功率に留まった。その他、水中ドローンを用いた水中物体操作環境に対して、試行錯誤の安全性を考慮した強化学習を適用し、期待通りの結果を得ることができた。これらの結果より、開発した強化学習基盤の実機環境における有効性、複数環境に適用可能な汎用性について確認された。
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|
Report
(3 results)
Research Products
(5 results)
-
-
-
-
[Presentation] Cautious Actor-Critic2021
Author(s)
Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara
Organizer
The 13th Asian Conference on Machine Learning (ACML)
Related Report
Int'l Joint Research
-