• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

強化学習法における効率的なサンプリング法の開発

Research Project

Project/Area Number 18700147
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionOsaka University

Principal Investigator

中村 泰  Osaka University, 大学院・工学研究科, 助教 (70403334)

Project Period (FY) 2006 – 2007
Project Status Completed (Fiscal Year 2007)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2007: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2006: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords機械学羽 / 知能ロボティクス / 人工知能 / 機械学習
Research Abstract

本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.方策オフ型の強化学習法では環境との相互作用を行う場合に任意の方策を用いることが可能であるため,現在の方策で学習を行う方策オン型の学習法では制約される,効率的な学習を行うため試行錯誤のための方策を利用することが可能である.しかし,どのような試行錯誤により効率的な学習が可能であるかはまだ分かっていない,そこで,本研究では方策パラメータが確率的に出力される枠組みを提案することで群による学習を実現するモデルを提案した.すなわち,方策パラメータを個体と見なすと,その個体を生成する群のパラメータを獲得する方法となっており,通常の強化学習では行動の探索が主に扱われるが,本提案手法は方策自体の探索の過程ともなっており,より効率的な学習の実現が期待できる.
昨年度は歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した,しかし,適用した課題は比較的少ない数の線形な結合重みを学習する物であり,状態から行動への非線形なマッピングを扱う枠組みにはなっていなかった.そこで,本年度は非線形なマッピングを行う方策として同径基底関数ネットワークを用いた方策を用い,倒立振子の倒立制御に対する方策の学習課題に適用し,確率的方策パラメータを持つ方策の学習がより多数の方策パラメータを持つ方策関数の学習にも効率的な学習ができることを示した.この枠組みは,基底関数の和で表される方策であれば適用可能であり,状態から行動への非線形なマッピングも表現可能である.一方,より複雑なダイナミクスを持つ制御対象に適応する場合には,基底関数の設計が重要となってくるため,今後の課題となる.

Report

(2 results)
  • 2007 Annual Research Report
  • 2006 Annual Research Report
  • Research Products

    (3 results)

All 2008 2007 Other

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

  • [Journal Article] Reinforcement learning for a biped robot based on a CPG-act or-critic method2007

    • Author(s)
      Y. Nakamura, T. Mori, M. Sato, and S. Ishii.
    • Journal Title

      Neural Networks 20(6)

      Pages: 723-735

    • NAID

      10019850710

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Reinforcement learning for a biped robot based on a CPG-actor-critic method

    • Author(s)
      Yutaka Nakamura
    • Journal Title

      Neural Networks (In press)

    • NAID

      10019850710

    • Related Report
      2006 Annual Research Report
  • [Presentation] 確率的パラメータを持っ方策関数に対する方策勾配法2008

    • Author(s)
      中村 泰
    • Organizer
      電子情報通信学会ニューロコンピューティング研究会
    • Place of Presentation
      玉川大学
    • Year and Date
      2008-03-13
    • Related Report
      2007 Annual Research Report

URL: 

Published: 2006-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi