強化学習法における効率的なサンプリング法の開発

研究課題

研究課題/領域番号	18700147
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	大阪大学
研究代表者	中村泰大阪大学, 大学院・工学研究科, 助教 (70403334)
研究期間 (年度)	2006 – 2007
研究課題ステータス	完了 (2007年度)
配分額 *注記	2,100千円 (直接経費: 2,100千円) 2007年度: 800千円 (直接経費: 800千円) 2006年度: 1,300千円 (直接経費: 1,300千円)
キーワード	機械学羽 / 知能ロボティクス / 人工知能 / 機械学習
研究概要	本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.方策オフ型の強化学習法では環境との相互作用を行う場合に任意の方策を用いることが可能であるため,現在の方策で学習を行う方策オン型の学習法では制約される,効率的な学習を行うため試行錯誤のための方策を利用することが可能である.しかし,どのような試行錯誤により効率的な学習が可能であるかはまだ分かっていない,そこで,本研究では方策パラメータが確率的に出力される枠組みを提案することで群による学習を実現するモデルを提案した.すなわち,方策パラメータを個体と見なすと,その個体を生成する群のパラメータを獲得する方法となっており,通常の強化学習では行動の探索が主に扱われるが,本提案手法は方策自体の探索の過程ともなっており,より効率的な学習の実現が期待できる. 昨年度は歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した,しかし,適用した課題は比較的少ない数の線形な結合重みを学習する物であり,状態から行動への非線形なマッピングを扱う枠組みにはなっていなかった.そこで,本年度は非線形なマッピングを行う方策として同径基底関数ネットワークを用いた方策を用い,倒立振子の倒立制御に対する方策の学習課題に適用し,確率的方策パラメータを持つ方策の学習がより多数の方策パラメータを持つ方策関数の学習にも効率的な学習ができることを示した.この枠組みは,基底関数の和で表される方策であれば適用可能であり,状態から行動への非線形なマッピングも表現可能である.一方,より複雑なダイナミクスを持つ制御対象に適応する場合には,基底関数の設計が重要となってくるため,今後の課題となる.

報告書

(2件)

2007 実績報告書
2006 実績報告書

研究成果
(3件)

すべて 2008 2007 その他

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (1件)

[雑誌論文] Reinforcement learning for a biped robot based on a CPG-act or-critic method2007
- 著者名/発表者名
  Y. Nakamura, T. Mori, M. Sato, and S. Ishii.
- 雑誌名
  
  Neural Networks 20(6)
  
  ページ: 723-735
- NAID
  10019850710
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] Reinforcement learning for a biped robot based on a CPG-actor-critic method
- 著者名/発表者名
  Yutaka Nakamura
- 雑誌名
  
  Neural Networks (In press)
- NAID
  10019850710
- 関連する報告書
  2006 実績報告書
[学会発表] 確率的パラメータを持っ方策関数に対する方策勾配法2008
- 著者名/発表者名
  中村泰
- 学会等名
  電子情報通信学会ニューロコンピューティング研究会
- 発表場所
  玉川大学
- 年月日
  2008-03-13
- 関連する報告書
  2007 実績報告書

強化学習法における効率的なサンプリング法の開発

研究代表者

中村 泰 大阪大学, 大学院・工学研究科, 助教 (70403334)

2,100千円 (直接経費: 2,100千円)

報告書

研究成果

[雑誌論文] Reinforcement learning for a biped robot based on a CPG-act or-critic method2007

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Reinforcement learning for a biped robot based on a CPG-actor-critic method

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 確率的パラメータを持っ方策関数に対する方策勾配法2008

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

中村泰大阪大学, 大学院・工学研究科, 助教 (70403334)