研究課題/領域番号 |
21H03522
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2023年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2022年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
2021年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
|
キーワード | 強化学習 / ロボットラーニング / 安全性 / 信頼性 / 試行錯誤の安全性 / 学習の信頼性 / エントロピー正則化 / 単調方策改善 |
研究開始時の研究の概要 |
本研究の目的は、環境や道具との物理的接触を伴う作業を学習可能なロボット強化学習の技術基盤の確立である。サイバー世界を指向する現行の強化学習の枠組みでは、試行錯誤の際、不意の物理接触・衝突に対して故障・損傷を防ぐ「安全性」、学習により行動規則を確実に改善する「信頼性」が備わっていない。本研究では「安全性」と「信頼性」を備えた実世界ロボット指向の理論および技術基盤の確立を狙う。
|
研究実績の概要 |
2022年度は、初年度に検討したロボット強化学習における(1)試行錯誤の安全性と(2)学習の信頼性に関する理論をベースとする(1)安全性と信頼性を備えた深層強化学習アルゴリズムの開発と、(2)実機実験環境の構築に従事した。
(1) 前年度に構築した理論をベースに、実用性の高いロボット深層強化学習アルゴリズムの開発に取り組んだ。具体的には、安全性を担保する環境不確実性に応じた制御入力強度の動的制約と、信頼性を担保する更新方策の改善性を予測するExpected Policy Advantage(EPA)の両方を考慮したアルゴリズムを導出した。さらに、導出したアルゴリズムの有効性を検証するために、シミュレーション実験を行った。この実験では、強化学習のメタパラメータ設定や離散行動空間の設定の精度に対する方策改善効果を調査し、従来手法と比較して提案手法の優位性を確認した。また、別のアプローチとして、教示データやタスク依存の付加情報を活用し、方策改善の信頼性を向上させる手法も開発した。
(2) 開発するロボット強化学習アルゴリズムの有効性の検証用に、実機実験環境の構築に取り組んだ。速度制御モードや、力・トルクセンサを利用したバーチャルインピーダンス制御が利用可能な協働ロボットアームを購入し、モーションキャプチャや画像・深度カメラと統合した実験環境を構築した。さらに、物理接触を豊富に伴う作業として「部品組み立て作業」と「調理作業」を想定した作業タスクを設計・実装した。さらに、提案手法の汎用性の検証用環境として、所属機関が保有するプールおよび水中ドローンを活用した水中作業環境の構築にも取り組んだ。ドローンの位置を計測するセンサを購入し、実装および必要ソフトウェアを開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画に沿って、(1)安全性と信頼性を備えた深層強化学習アルゴリズムの開発と、(2)実機実験環境の構築について、それぞれ十分な進展があったと考えている。(1)のアルゴリズムについては、物理シミュレーション環境での有効性を確認できた。(2)の実験環境構築についても、物理接触を許容するためのシステム改善は必要であるものの、完成の目途は立っている。
|
今後の研究の推進方策 |
最終年度である次年度では、EPAを核とした強化学習手法の実ロボットへの有用性と残存する課題を発掘整理することに留意しながら、以下の2つの課題に取り組む予定である。 (1) 安全性と信頼性を備えた深層強化学習アルゴリズムの開発:前年度の構築した安全性・信頼性を強化した強化学習理論を発展させる。 これまでに学習の信頼性を改善するために導出したExpected Policy Advantage(EPA)とこれに基づく単調増加性を指向した方策学習則をベースに、異なる環境で学習された方策・価値関数を利用する強化学習の安定化アルゴリズムを開発する。シミュレーション内で学習した方策・価値関数を利用した実ロボット学習の安定化や、大規模なドメインランダム化によるsim-to-real強化学習における学習効率化の枠組みを検討する。次に、価値関数の近似誤差に頑健なエントロピー正則化強化学習について、一般的な正則化法では、カルバックライブラーダイバージェンスが用いられてきたが、近年はq-logarithmを利用する一般化の枠組みが提案されている。そこで、これを用いた正則化の一般化を検討し、高次元へのスケール化を目指す。 (2)実機実験環境の構築 前年度に引き続き、開発するロボット強化学習アルゴリズムの有効性を検証するため,実機実験環境を構築する。物理接触を伴う作業用ロボットアームを用いた環境において、衝突の検出および対応が不十分であるとわかったため、力・トルクセンサを追加で購入して物理接触の外力を計測し、安全機能を補強する。さらに、所属機関が保有するプールおよび水中ドローンを用いた水中物体操作環境が利用可能となったため、こちらへの適用実験を実施し、提案手法の汎用性を検証する。
|