研究課題/領域番号 |
21H03522
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 強化学習 / 試行錯誤の安全性 / 学習の信頼性 / エントロピー正則化 / 単調方策改善 |
研究実績の概要 |
本研究の目的は、実世界のロボットシステムが自らの試行錯誤によって収集する経験サンプルから、環境や道具との物理的接触を伴う作業を学習可能にする技術基盤の確立である。2021年度は、ロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性の問題に対する理論構築に取り組んだ。 (1) 試行錯誤の安全性に関して、ロボットが試行錯誤する際、物理接触によるロボット・環境の破損・故障リスクを見積って、危険な接触を回避する理論的枠組みを構築した。未知の経験を取得する探索行動を実行しなければ学習に有益な経験サンプルを収集できないが、破損・故障のリスクが存在するというジレンマを解消するため、「故障リスク=制御入力強度」および「未経験の領域=環境不確実性が高い」と解釈し、環境不確実性に応じた制御入力強度の動的制約を導入する枠組みを開発した。簡易的なシミュレーションを通じて、試行錯誤における破損・故障のリスクが低減することを確認した。 (2) 学習の信頼性に関して、学習の信頼性の指標として、更新された方策の改善性を実験試行無しで予測する指標:Expected Policy Advantage (EPA)に注目した。従来のEPAは、更新された方策が持つ期待累積報酬値や状態定常分布など、未知環境では知り得ない量を必要とした。これに対して、本研究では、KL情報量に基づく方策正則化の仮定を導入し、方策の更新時に許容される方策更新幅に制限を加えた。これにより実用性の高い近似方法と、価値ベース法およびActor-critic法への実装方法を開発した。数値シミュレーションにより、上記の工夫により学習の安定性・信頼性が大幅に改善されることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画に沿って、ロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性の問題に対する基礎的な理論を構築できたと考えている。特に、学習の信頼性について、方策正則化によるEPAの近似手法が、価値ベース法とactor-critic法の両方に有効であることが確認できたことで、今後のロボット応用にも期待が高まった。
|
今後の研究の推進方策 |
2021年度に得られた成果を基に、ロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性の問題に対する理論をベースとする(1)安全性と信頼性を備えた深層強化学習アルゴリズムの開発と、(2)実機実験環境の構築を進める。 (1) 安全性を担保する環境不確実性に応じた制御入力強度の動的制約と、信頼性を担保する更新方策の改善性を予測するExpected Policy Advantage(EPA)の両方を考慮したアルゴリズムの導出を目指す。また、また、限られた経験データに対して深層学習を適用する場合、価値関数の近似精度の低下に伴い、EPAの予測精度の低下が懸念される。そこで、価値関数の近似誤差に対する頑健性の向上について検討する。 (2) 開発するロボット強化学習アルゴリズムの有効性の検証用に、実機実験環境を構築する。コンタクトリッチ作業への応用に対して、関節剛性が高い一般的な産業ロボットでは故障しやすいことが懸念される。そこで、力覚センサの導入や直列弾性構造を持つアクチュエータモジュールの利用を検討する。実ロボットの作業学習課題を設定し、学習実験を通じて、開発するロボット強化学習アルゴリズムの有効性検証を目指す。
|