2007 Fiscal Year Annual Research Report

強化学習法における効率的なサンプリング法の開発

Research Project

Project/Area Number	18700147
Research Institution	Osaka University
Principal Investigator	中村泰 Osaka University, 大学院・工学研究科, 助教 (70403334)
Keywords	機械学羽 / 知能ロボティクス / 人工知能
Research Abstract	本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.方策オフ型の強化学習法では環境との相互作用を行う場合に任意の方策を用いることが可能であるため,現在の方策で学習を行う方策オン型の学習法では制約される,効率的な学習を行うため試行錯誤のための方策を利用することが可能である.しかし,どのような試行錯誤により効率的な学習が可能であるかはまだ分かっていない,そこで,本研究では方策パラメータが確率的に出力される枠組みを提案することで群による学習を実現するモデルを提案した.すなわち,方策パラメータを個体と見なすと,その個体を生成する群のパラメータを獲得する方法となっており,通常の強化学習では行動の探索が主に扱われるが,本提案手法は方策自体の探索の過程ともなっており,より効率的な学習の実現が期待できる. 昨年度は歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した,しかし,適用した課題は比較的少ない数の線形な結合重みを学習する物であり,状態から行動への非線形なマッピングを扱う枠組みにはなっていなかった.そこで,本年度は非線形なマッピングを行う方策として同径基底関数ネットワークを用いた方策を用い,倒立振子の倒立制御に対する方策の学習課題に適用し,確率的方策パラメータを持つ方策の学習がより多数の方策パラメータを持つ方策関数の学習にも効率的な学習ができることを示した.この枠組みは,基底関数の和で表される方策であれば適用可能であり,状態から行動への非線形なマッピングも表現可能である.一方,より複雑なダイナミクスを持つ制御対象に適応する場合には,基底関数の設計が重要となってくるため,今後の課題となる.

Research Products
(2 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

[Journal Article] Reinforcement learning for a biped robot based on a CPG-act or-critic method2007
- Author(s)
  Y. Nakamura, T. Mori, M. Sato, and S. Ishii.
- Journal Title
  
  Neural Networks 20(6)
  
  Pages: 723-735
- Peer Reviewed
[Presentation] 確率的パラメータを持っ方策関数に対する方策勾配法2008
- Author(s)
  中村泰
- Organizer
  電子情報通信学会ニューロコンピューティング研究会
- Place of Presentation
  玉川大学
- Year and Date
  2008-03-13