2015 Fiscal Year Annual Research Report
部分観測環境下におけるモデルベース・モデルフリー強化学習の役割分担
Publicly Offered Research
Project Area | Elucidation of neural computation for prediction and decision making: toward better human understanding and applications |
Project/Area Number |
26120727
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2014-04-01 – 2016-03-31
|
Keywords | 強化学習 / 逆強化学習 / EMアルゴリズム / 線形可解マルコフ決定過程 / 密度比推定法 |
Outline of Annual Research Achievements |
このプロジェクトでは線形可解マルコフ決定過程(LMDP)に基づいた強化学習および逆強化学習について研究した。一つはベルマン方程式が線形化されることを利用した、解の重ね合わせ原理に基づく制御則の合成を実ロボット実験によって検証した。その結果、実世界では重ね合わせは厳密には成立せず、重ね合わせによって得られた解を初期値として追加学習する手法が有効であることを示した。また逆強化学習法として、LMDPでは学習前後の状態遷移確率の比の対数が報酬と価値関数によって表現できることを示し、それに基づいた逆強化学習法を提案した。一つは密度比推定法と正則化付き最小二乗法によるもので、これは特許として出願した(PCT/JP2015/004001)。また最小二乗法を必要としないロジスティック回帰に基づく方法も特許として出願した。これらの手法は従来法OptV, MaxEnt-IRL, RelEnt-IRLよりも少ない計算コスト、少ないサンプル数で報酬関数を効率よく推定することができた。これらの成果は神経回路学会誌の解説記事としてまとめた。
また、これまで決定論的方策を学習できる勾配探査法であるPolicy Gradients with Parameter based Exploration (PGPE)とEMアルゴリズムの導入により学習率の調整の問題を回避したReward Weighted Regressionをもとに新しい学習率を必要としない方策探査法を提案し、従来法のPGPEやFinite Differenceよりも少ないサンプルで、かつ素早く制御則が獲得できることをシミュレーションで示した。この結果はArtificial Life and Roboticsに掲載された。またベースラインの導入による推定量の改善や実ロボットの実験を含めた結果を2016年6月をめどに英文誌に投稿する予定である。
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
Research Products
(10 results)