2013 Fiscal Year Annual Research Report
強化学習を用いた進化論的生物型ロボットの行動形態獲得の研究
Project/Area Number |
23500275
|
Research Institution | Yokohama National University |
Principal Investigator |
藪田 哲郎 横浜国立大学, 工学研究院, 教授 (30323926)
|
Co-Investigator(Kenkyū-buntansha) |
豊田 希 横浜国立大学, 工学研究院, 研究教員 (60547222)
|
Keywords | 強化学習 / 生物型ロボット / 大車輪ロボット / 報酬操作 / 前進行動形態 / ロボットハンド |
Research Abstract |
今年度は昨年度に引き続き、強化学習に人間の主観報酬を用いて、イモムシロボットが最大前進行動距離を獲得する行動形態について検討を進めた。報酬の大きさを同一条件で比較すると、センサから与えられる客観報酬よりも、このロボットの運動を良く熟知した人が与える報酬から得られる行動形態はより大きな前進距離を獲得した。この理由は、人間は生物の行動から類推して、より前進行動が得られる姿勢に着目して主観報酬を与えており、人間の主観報酬の多様性を明らかにすることができた。 次に、マルコフ性を保証できない大車輪ロボットの強化学習では確率的な挙動に支配されるが、この確率的な挙動は行動分析には困難である。そのため、学習回数とともに、前回り後回りの成功確率と失敗確率を図面に可視化し、その学習回数と回転確率の変化パターンから行動形態の分析を行った。エネルギ報酬、ロボットの姿勢報酬を複数用いて検討をしたが、この手法を用いるとそれぞれの報酬の特徴が解明され、運動エネルギ報酬が最も回転を実現しやすい事を明らかにした。 強化学習を用いた生物ロボットの動的な行動形態の獲得については、エネルギ最少で前進行動を最大化する報酬を用いた行動形態を学習させると、Hoytらの示した離散的な移動モード以外でも報酬が最少化する行動形態が得られた。これは、生物では行動の対称性が必要とされるが、生物ロボットの場合は行動の対称性という束縛がないので、非対称行動も獲得可能であり、生物とは異なる行動形態が獲得されることを明らかにした。 最後に、マニピュレータ・ハンドシステムの研究では、仮想剛性で対象物を把持する手法でのインピーダンス制御およびアドミッタンス制御の比較検討を行い、その特徴を解明した。
|