研究概要 |
本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.方策オフ型の強化学習法では環境との相互作用を行う場合に任意の方策を用いることが可能であるため,現在の方策で学習を行う方策オン型の学習法では制約される,効率的な学習を行うため試行錯誤のための方策を利用することが可能である.しかし,どのような試行錯誤により効率的な学習が可能であるかはまだ分かっていない,そこで,本研究では方策パラメータが確率的に出力される枠組みを提案することで群による学習を実現するモデルを提案した.すなわち,方策パラメータを個体と見なすと,その個体を生成する群のパラメータを獲得する方法となっており,通常の強化学習では行動の探索が主に扱われるが,本提案手法は方策自体の探索の過程ともなっており,より効率的な学習の実現が期待できる. 昨年度は歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した,しかし,適用した課題は比較的少ない数の線形な結合重みを学習する物であり,状態から行動への非線形なマッピングを扱う枠組みにはなっていなかった.そこで,本年度は非線形なマッピングを行う方策として同径基底関数ネットワークを用いた方策を用い,倒立振子の倒立制御に対する方策の学習課題に適用し,確率的方策パラメータを持つ方策の学習がより多数の方策パラメータを持つ方策関数の学習にも効率的な学習ができることを示した.この枠組みは,基底関数の和で表される方策であれば適用可能であり,状態から行動への非線形なマッピングも表現可能である.一方,より複雑なダイナミクスを持つ制御対象に適応する場合には,基底関数の設計が重要となってくるため,今後の課題となる.
|