2006 Fiscal Year Annual Research Report
方策勾配法に基づく強化学習法と複雑システム制御への応用
Project/Area Number |
05J02773
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
森 健 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Keywords | 強化学習 / 方策オフ型 / 方策勾配法 / 最小二乗方策評価 / サンプル再利用 / マルチエージェント |
Research Abstract |
近年提案されたNatural Actor-Critic法と呼ばれる方策勾配法は、速く確実に学習できる強化学習法として注目されている。しかし、方策を改善するごとに過去の方策の下で生成したサンプルを捨てなければならないという問題があった。これに対して、昨年我々が提案した「方策オフ型 Natural Actor-Critic法(Off-NAC法)」と呼ぶ方策勾配法は、過去の方策の下で生成したサンプルを現在の方策勾配の推定に再利用することができる。このため、サンプルの生成が困難である実システム(複雑システム)の制御則獲得課題に対しても、少ないサンプル数で速く学習することができると考えられ、シミュレーション実験によりその有効性を示した。 本年はまず、Off-NAC法の分散分析を行い、過去の方策の下で生成した系列の長さに依存して、方策勾配推定の分散が指数関数的に大きくなることを検証した。この問題を回避するためには、系列の長さを有限にする必要があるが、従来のTD法を用いて方策勾配推定を行った場合、方策勾配推定が発散する可能性が生じる。しかし、off-NAC法では、最小二乗法に基づくTD法である「方策オフ型LSTD(λ)法」を提案し用いており、従来のTD法と収束条件が異なる。我々は、方策オフ型LSTD(λ)法が、任意の長さの系列を用いた場合でも収束することを証明し、従来のTD法では発散するシミュレーション課題において、収束することを示した。これにより、off-NAC法が、これまで提案されてきた重点サンプリングに基づく方策オフ型強化学習法の中で、唯一収束が保証されることを示すことができた。 その他、近年提案された隠れマルコフモデルに基づく方策勾配法をマルチエージェント課題に適用した。他のエージェントのダイナミクスの特徴を、内部状態遷移モデルとして抽出することができ、従来法よりも良い性能を持つことを示した。
|
Research Products
(2 results)