研究概要 |
第1年度は,自己創出的自律適応システムの根幹をなす強化学習アルゴリズムとその予備的実機実験を中心に行った. まずはじめに,実自律移動ロボットに強化学習アルゴリズムを埋め込む際に一般に行われる前処理であるセンサ入力/行動出力を離散化して有限状態空間に近似変換する手法では,学習空間が容易に肥大化しまい学習効率が上がらないことを確認した.これに対して,本研究での主張の一つである学習空間の自律的状態認知/行動出力のために,連続学習空間を取り扱う強化学習法を構築した.連続値センサ入力・行動出力をじかに学習空間に使用することが可能となり,前処理として必要であった様々なしきい値決定などに煩わされることなく有効な状態認知と行動出力状態を自己創出させ,その間の適応的関係を自律的に学習させることが可能になることを確認した.我々はこれをCSCG (Continuous Space Classifier Generator)と名付けている. 提案手法を用いて,1)計算機シミュレーションによる検証実験,2)疑似四足歩行ロボットによる実機実験を行った.1)の計算機実験では,四足歩行ロボット・モデルを計算機上に構築し,各脚にあるリンク機構にCSCGを-つずつ配置して歩容獲得実験を行った.力学的諸要素を考慮したシミュレーション環境での実験の結果,各CSCGがおのおの協調しあって適切な周期的挙動を生成して歩容獲得することがわかった.これをもとにして,二足をキャスタとした疑似四足歩行ロボットを作成して同様の有効性確認実験を行った.実機においても,20エピソード程度の少ない学習回数で歩容獲得できることが確認され,非常に学習効率の良い手法であることがわかった.
|