研究概要 |
ロボットの行動学習の方法の一つとして知られる強化学習は,対象が未知であっても試行錯誤により適切な行動を獲得できる半面,状態空間が高次元になると学習に膨大な時間がかかってしまうという問題を有する.この問題に対するアプローチとして,状態遷移関数を明示的にモデル化することや,ロボットの実際の運動が拘束される低次元空間を同定することで試行錯誤に対する学習効率を向上させることが考えられる.特に,ロボットが環境や対象物と接触するようなタスクでは,接触により生じる拘束を積極的に利用することで状態空間を低次元化し,学習の効率を高めることが期待できる.本研究では,ロボットと対象との間の拘束を推定する関数近似を自律分散原理に基づいた方法で行うことを提案する.具体的には,近似する関数の局所形状について連続性を仮定し,データの得られていない場所についてもこの仮定のもとで関数の補間・補外を行うことにより少ない学習データから効率のよい関数近似を行うことを提案する. まず,一般の関数近似問題としてトーラス状の曲面の近似問題を取り上げ,提案関数近似方法がオンラインデータを利用した逐次的な曲面推定に有効であることを示した.次の課題としては,対象物の操作問題を想定し,対象物とロボット手先が接触する状態での操作において,対象物の運動自由度が拘束により制約されることを拘束曲面として表現し,その推定問題に提案関数近似法を適用する.これが行動学習への適用の第一段階となることが期待される.
|