研究概要 |
ロボットの行動学習の方法の一つである強化学習の学習効率を改善するアプローチとして,状態遷移関数のモデル化や,ロボットの実際の運動が拘束される低次元空間を同定し探索空間を低次元化することが考えられる.特に,ロボットが環境や対象物と接触するタスクでは,接触により生じる拘束を積極的に利用することで状態空間を低次元化し,学習の効率を高めることが期待できる.本研究では,ロボットと対象との間の接触による拘束多様体を推定する関数近似を行う自律分散原理に基づいた方法を提案した. 提案手法は,局所的な2次形式を用いた局所近似モデルと,局所近似モデル間の補間を行う補間モデルからなる.補間モデルには曲率などで定義される仮想エネルギーを最小化するアプローチを採用し,近似対象曲面の連続性を利用して局所形状の補間および補外を可能にした.本提案関数近似手法の適用対象として,2自由度マニピュレータによる円形対象物の操作問題をシミュレーション上で実装した.対象物とロボット手先が接触することで対象物および手先の運動が拘束により制約を受ける拘束曲面の推定問題を考え,手先と対象物の接触により得られた観測データ(サンプル)から提案関数近似法によって曲面の推定を行う.オンラインで与えられるサンプルに対し,逐次的に曲面の推定を行い,少ないサンプルからでも局所形状の補間によって効率よく推定が行えることを確認した.本提案手法は,曲面の推定方法を与えると同時に,高次元空間から低次元部分多様体へのパラメータ化行うことのできる手法である.これにより,効率のよい近似だけでなく学習を行うための低次元空間を与える写像法としての役割を果たし,強化学習の枠組みの中で有用になる可能性を持っている.
|