2006 Fiscal Year Annual Research Report
Project/Area Number |
18700147
|
Research Institution | Osaka University |
Principal Investigator |
中村 泰 大阪大学, 大学院工学研究科, 助手 (70403334)
|
Keywords | 機械学習 / 知能ロボティクス / 人工知能 |
Research Abstract |
本研究は,強化学習法の一手法である方策勾配法において,効率的な試行錯誤の仕方についての研究を行うものである.近年,方策オフ型の強化学習法が開発されており,環境との相互作用を行う場合に任意の方策を用いることが可能となっている.しかし,どのような試行錯誤を行えば学習が効率的であるかはまだ分かっておらず,効率的な学習を行うための試行錯誤の仕方を開発することは有効である. 方策勾配法は,制御対象の状態を観測し,その観測から制御信号を決定する過程において,その写像を行う関数のパラメータを最適化する手法である.本研究では,このパラメータが確率的に出力されるモデルを考えた.このモデルでは,方策を決定するパラメータ(方策パラメータと呼ばれる)を確率的に出力する確率モデルを定義し,この確率モデルのパラメータの学習を行うものである.このモデルは,方策を出力するモデルの学習となっているため,試行錯誤を行うための方策(Behavior Policyと呼ぶ)を生成する枠組みとなっている.本提案手法を,歩行運動の獲得課題(シミュレーション)に適用し,効率的に学習できる事を示した. 本提案手法は,性能の良い個体(方策)を生成する集団を学習によって得るという枠組みと考えることも可能であり,すなわち,群によって環境との相互作用を行うモデルとなっている.これは,機械学習におけるアンサンブル学習のモデルとも考える事が可能で,これにより学習の効率が改善したと考えられる.
|
Research Products
(1 results)