2023 Fiscal Year Annual Research Report
安全性と信頼性を備えたロボット強化学習の技術基盤の創出
Project/Area Number |
21H03522
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 強化学習 / 試行錯誤の安全性 / 学習の信頼性 / エントロピー正則化 / 単調方策改善 / ドメインランダム化強化学習 |
Outline of Annual Research Achievements |
2023年度(最終年度)には、これまで開発してきた安全性と信頼性を備えたロボット強化学習基盤の理論・アルゴリズムをさらに発展させることに注力した。また構築した実機実験環境を活用して、実ロボットを用いた実験検証も実施した。
(1) 異なる環境での学習安定化:昨年度において学習の信頼性を向上させるために導出したExpected Policy Advantage(EPA)と単調増加性を指向した方策学習則をベースに、物理パラメータなどの変更により異なる環境下で学習された方策・価値関数を活用する強化学習の安定化アルゴリズムを開発した。異なる環境間のギャップが小さい場合には、それらを近似的に同一と見なして学習結果を適切な度合いで再利用する仕組みが採用されている。ドメインランダム化強化学習のシナリオについて、様々な物理シミュレーション課題に提案手法を適用した結果、許容されるランダム化範囲の拡大とsim-to-sim成功率の改善を確認した。
(2) 実機実験環境の構築および実験検証:構築した物理接触を伴う作業用のロボットアーム環境を用いた実験検証を実施した。新たに設計したビーズボールの山崩し作業の学習タスクを通じて、先述の提案手法の有効性をsim-to-real実験により検証した。簡易シミュレーションと広範なパラメータランダム化の中で提案手法により獲得された方策は、実環境においても高い作業成功率を示した。一方、学習信頼性を担保する機能を無効化した比較手法は、低い成功率に留まった。その他、水中ドローンを用いた水中物体操作環境に対して、試行錯誤の安全性を考慮した強化学習を適用し、期待通りの結果を得ることができた。これらの結果より、開発した強化学習基盤の実機環境における有効性、複数環境に適用可能な汎用性について確認された。
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|
Research Products
(2 results)