全体的な概要:研究初年度は鏡像降下法および加速鏡像降下法それぞれに基づいた強化学習アルゴリズムを導出した。また低次元パラメータの方策関数を訓練する強化学習問題による評価を行った.次年度は高次元パラメータの方策関数を訓練する強化学習問題や最適化問題による評価実験を行った。当初研究計画通り研究を遂行した。
具体的内容と意義:鏡像降下法は最急降下法や指数勾配降下法など,いくつかの勾配法の一般化であり,近年も尚,鏡像降下法のNesterov加速といった様々な拡張や基礎研究が進んでいる。本研究の課題は,鏡像降下法に基づいて強化学習手法を理解し,また具体的にアルゴリズムを導く手順を明らかにすることであり,実際に鏡像降下法に関して提案された各種拡張や基礎研究を強化学習アルゴリズムに取り入れる1つの道筋を示した。評価実験としては,初年度はロボットアーム制御のシミュレーションを主に扱い,次年度は多自由度ロボットアーム実機実験を主に扱った。性能評価基準としては,最適解に至るまでの試行錯誤回数(収束速度),真の最適解と学習により得られた解との誤差(収束性能),深層NNなど高次元パラメータを持つ方策関数の学習可能性(高次元の凸/非凸最適化問題における収束性能)を扱った。
派生的な意義と重要性:本研究で用いた鏡像降下法からはベイズの定理を導き出せることが知られている。この立場ではベイズの定理を勾配法の一種としてみなすため,ベイズ学習について確率論の定理としての従来観とは異なった新たな視点を提供できる。実際,研究で導いた鏡像降下法に基づく強化学習はベイズ学習と類似した部分があり,本課題で得られた成果については,運動学習および認知の学習に興味を持つ国内外の研究者と幅広く議論された。
|