Publicly Offered Research
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
このプロジェクトでは線形可解マルコフ決定過程(LMDP)に基づいた強化学習および逆強化学習について研究した。一つはベルマン方程式が線形化されることを利用した、解の重ね合わせ原理に基づく制御則の合成を実ロボット実験によって検証した。その結果、実世界では重ね合わせは厳密には成立せず、重ね合わせによって得られた解を初期値として追加学習する手法が有効であることを示した。また逆強化学習法として、LMDPでは学習前後の状態遷移確率の比の対数が報酬と価値関数によって表現できることを示し、それに基づいた逆強化学習法を提案した。一つは密度比推定法と正則化付き最小二乗法によるもので、これは特許として出願した(PCT/JP2015/004001)。また最小二乗法を必要としないロジスティック回帰に基づく方法も特許として出願した。これらの手法は従来法OptV, MaxEnt-IRL, RelEnt-IRLよりも少ない計算コスト、少ないサンプル数で報酬関数を効率よく推定することができた。これらの成果は神経回路学会誌の解説記事としてまとめた。また、これまで決定論的方策を学習できる勾配探査法であるPolicy Gradients with Parameter based Exploration (PGPE)とEMアルゴリズムの導入により学習率の調整の問題を回避したReward Weighted Regressionをもとに新しい学習率を必要としない方策探査法を提案し、従来法のPGPEやFinite Differenceよりも少ないサンプルで、かつ素早く制御則が獲得できることをシミュレーションで示した。この結果はArtificial Life and Roboticsに掲載された。またベースラインの導入による推定量の改善や実ロボットの実験を含めた結果を2016年6月をめどに英文誌に投稿する予定である。
27年度が最終年度であるため、記入しない。
All 2016 2015 2014 Other
All Journal Article (3 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results, Acknowledgement Compliant: 2 results) Presentation (11 results) (of which Int'l Joint Research: 5 results) Remarks (1 results) Patent(Industrial Property Rights) (3 results) (of which Overseas: 3 results)
Artificial Life and Robotics
Volume: 21 Issue: 1 Pages: 125-131
10.1007/s10015-015-0260-7
The Brain & Neural Networks
Volume: 23 Issue: 1 Pages: 2-13
10.3902/jnns.23.2
130005150459
Neural Networks
Volume: 64 Pages: 29-38
10.1016/j.neunet.2014.09.006
https://groups.oist.jp/ja/ncu/adaptive-systems-group