• Search Research Projects
  • Search Researchers
  1. Back to previous page

方策勾配法に基づく強化学習法と複雑システム制御への応用

Research Project

Project/Area Number05J02773
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Intelligent informatics
Research InstitutionNara Institute of Science and Technology
Research Fellow 森 健  奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
Project Period (FY) 2005 – 2006
Project Status Completed(Fiscal Year 2006)
Budget Amount *help
¥1,800,000 (Direct Cost : ¥1,800,000)
Fiscal Year 2006 : ¥900,000 (Direct Cost : ¥900,000)
Fiscal Year 2005 : ¥900,000 (Direct Cost : ¥900,000)
Keywords強化学習 / 方策オフ型 / 方策勾配法 / 最小二乗方策評価 / サンプル再利用 / マルチエージェント / 自然方策勾配 / 探索・搾取
Research Abstract

近年提案されたNatural Actor-Critic法と呼ばれる方策勾配法は、速く確実に学習できる強化学習法として注目されている。しかし、方策を改善するごとに過去の方策の下で生成したサンプルを捨てなければならないという問題があった。これに対して、昨年我々が提案した「方策オフ型 Natural Actor-Critic法(Off-NAC法)」と呼ぶ方策勾配法は、過去の方策の下で生成したサンプルを現在の方策勾配の推定に再利用することができる。このため、サンプルの生成が困難である実システム(複雑システム)の制御則獲得課題に対しても、少ないサンプル数で速く学習することができると考えられ、シミュレーション実験によりその有効性を示した。
本年はまず、Off-NAC法の分散分析を行い、過去の方策の下で生成した系列の長さに依存して、方策勾配推定の分散が指数関数的に大きくなることを検証した。この問題を回避するためには、系列の長さを有限にする必要があるが、従来のTD法を用いて方策勾配推定を行った場合、方策勾配推定が発散する可能性が生じる。しかし、off-NAC法では、最小二乗法に基づくTD法である「方策オフ型LSTD(λ)法」を提案し用いており、従来のTD法と収束条件が異なる。我々は、方策オフ型LSTD(λ)法が、任意の長さの系列を用いた場合でも収束することを証明し、従来のTD法では発散するシミュレーション課題において、収束することを示した。これにより、off-NAC法が、これまで提案されてきた重点サンプリングに基づく方策オフ型強化学習法の中で、唯一収束が保証されることを示すことができた。
その他、近年提案された隠れマルコフモデルに基づく方策勾配法をマルチエージェント課題に適用した。他のエージェントのダイナミクスの特徴を、内部状態遷移モデルとして抽出することができ、従来法よりも良い性能を持つことを示した。

Report

(2results)
  • 2006 Annual Research Report
  • 2005 Annual Research Report

Research Products

(5results)

All 2007 2006 2005

All Journal Article

  • [Journal Article] Reinforcement Learning for a Biped Robot Based on a CPG-Actor-Critic Method2007

    • Author(s)
      Yutaka Nakamura
    • Journal Title

      Neural Networks (To appear)

    • Related Report
      2006 Annual Research Report
  • [Journal Article] 重点サンプリングに基づく natural actor-critic 法による効果的なサンプルの再利用2006

    • Author(s)
      森 健
    • Journal Title

      電子情報通信学会論文誌 J89-D・5

      Pages : 954-966

    • Related Report
      2006 Annual Research Report
  • [Journal Article] 重点サンプリングに基づくnatural actor-critic法による効果的なサンプルの再利用2006

    • Author(s)
      森 健
    • Journal Title

      電子情報通信学会論文誌 J89-D・5

      Pages : 1-14

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Off-Policy Natural Actor-Critic2005

    • Author(s)
      T.Mori
    • Journal Title

      NAIST Technical Report 20050007

      Pages : 1-30

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Off-Policy Natural Policy Gradient Method for a Biped Walking Using a CPG Controller2005

    • Author(s)
      Y.Nakamura
    • Journal Title

      Journal of Robotics and Mechatronics 17・6

      Pages : 636-644

    • Related Report
      2005 Annual Research Report

URL :

Published : 2005-04-01   Modified : 2016-04-21  

Information FAQ News Terms of Use

Powered by NII kakenhi