2005 Fiscal Year Annual Research Report

方策勾配法に基づく強化学習法と複雑システム制御への応用

Research Project

Project/Area Number	05J02773
Research Institution	Nara Institute of Science and Technology
Principal Investigator	森健奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
Keywords	強化学習 / 方策オフ型 / 自然方策勾配 / 最小二乗方策評価 / サンプル再利用 / 探索・搾取
Research Abstract	近年、方策勾配法に基づく強化学習法の一種であるNatural Actor-Critic (NAC)法が提案された。この手法は、actorの学習に自然方策勾配法、criticの学習に最小二乗法に基づくLSTD-Q(lambda)法を用いたもので、高次元の力学系に対する比較的効率の良いモデルフリー強化学習法として注目されている。しかしながら、NAC法は方策オン型、すなわち現在の方策に依存した学習法であることにより、二つの問題点がある。第一に、方策勾配の推定には、現在の方策の下で生成したサンプル系列が必要であり、過去の方策の下で生成した系列は用いることができない。第二に、強化学習において重要な問題である探索・搾取の制御の導入には大きな制約がある。これらの問題を解決するために、我々は重点サンプリング法に基づき、方策オフ型、すなわち現在の方策に直接依存しないLSTD-Q(lambda)法を提案しNAC法のcriticの学習法として採用した。これを方策オフ型NAC(off-NAC)法と呼ぶ。提案手法では、過去の方策の下で生成された系列を用いて現在の方策に対する方策勾配を推定できるため、方策勾配推定のバリアンスを下げることができる。また、方策最適化と別に探索制御を行うことができるため、探索・搾取を効果的に制御するができる。ヘビ型運動シミュレータを用いた計算機実験により、提案手法がNAC法よりも少ないサンプル数で、かつ安定して学習できることを示した。また、二足歩行運動シミュレータに対しても適用した。