Integration of Kullback-Leibler control and intrinsic rewards for reinforcement learning
Project/Area Number |
16K12504
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Allocation Type | Multi-year Fund |
Research Field |
Intelligent robotics
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
UCHIBE Eiji 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2018: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2017: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2016: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 強化学習 / EMアルゴリズム / ロボット学習 / スマートフォンロボット / 逆強化学習 / 進化計算 / 進化的計算 / 重点サンプリング / マルチエージェント強化学習 / 知能ロボティックス / 機械学習 / KL制御 / 人工知能 |
Outline of Final Research Achievements |
We have developed sample-efficient reinforcement learning algorithms: EM-based Policy Hyperparameter Exploration (EPHE) with adaptive baseline and Adaptive Multiple Importance Sampling (AMIS) for Policy Search. EPHE optimizes deterministic policies by EM algorithm and it was implemented in a wheeled inverted pendulum mobile robot. Experimental results showed that EPHE outperformed standard policy search methods. AMIS reduces the variance of the estimator based on multiple importance sampling when policy search algorithms tries to reuse samples that are collected in previous iteration steps. AMIS is evaluated with several policy search methods such as EPHE, REINFORCE, REPS, CMA-ES, and NES and experimental results showed that AMIS improved sample efficiency for all the algorithms. Besides we developed experimental platform based on smartphone and some basic behaviors such as battery foraging and mating based on visual communication are implemented by reinforcement learning.
|
Academic Significance and Societal Importance of the Research Achievements |
学術的意義はロボットの制御器の学習に適した強化学習アルゴリズムを開発したことである。通常の強化学習アルゴリズムでは確率的な制御則を用いることが多いが、生成行動系列は滑らかではないためロボットの制御には適さない。EPHEは決定論的な制御則を学習するため滑らかな行動系列を生成でき、スマートフォンロボットのような高精度のアクチュエータを持たないシステムにも適用できる。 社会的意義はデータの高効率性を実現したことである。現実的な問題設定では学習に利用できるデータは限られており、様々なアルゴリズムと組み合わせて使用可能なAMISは強化学習アルゴリズムを実問題に適用する際に重要な構成要素となると期待できる。
|
Report
(4 results)
Research Products
(14 results)