2018 年度実績報告書

カルバックライブラー制御法と内的報酬を統合した強化学習

研究課題

研究課題/領域番号	16K12504
研究機関	株式会社国際電気通信基礎技術研究所
研究代表者	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	強化学習 / 進化的計算 / スマートフォンロボット / 重点サンプリング
研究実績の概要	本研究は環境探査のための強化学習アルゴリズムを開発することを目的としている。本年度は以下の成果を得た。 (1) 適応的多重重点サンプリングによる経験の再利用: 方策探査法は多くのアルゴリズムが方策オン型であり過去の経験を再利用するためには重点サンプリングを用いた補正が必要になるが、単純な重点サンプリングの使用は学習を不安定化させる．そこで重点サンプリングによる推定値の分散を最小にするように過去のデータ収集分布の結合重みを修正する適応的重点サンプリング法を開発し、5種類の方策探査法に適用しデータ効率が改善できることを示した。 (2) 環境探査のための報酬の符号の分離: 報酬値を符号に応じて分離する強化学習法MaxPainを深層強化学習化したDeep MaxPainを開発した．Deep MaxPainは最下層の畳み込み層は共有するが価値関数を学習する全結合層は独立している。そのため正の報酬から学習するための経験と負の報酬から学習するための経験を個別に保存し、学習時に同じ重みで混合することで学習が安定になり、ニューラルネットワークを用いた関数近似とMaxPainを統合することに成功した。 (3) スマートフォンロボットを用いた自律分散協調ロボットシステムの開発: 強化学習のメタパラメータの影響を調査するためには、メタパラメータの値の異なる学習システムを並列に実行し学習過程を比較する方法が有効である。また、実ロボットにおける学習のサンプル効率を改善するために、複数学習システムのためのアルゴリズムの開発が重要で、検証のためにロボット実験システムを改良した。本年度は実ロボット上で外部バッテリからの充電行動、および交配行動実現のためのロボット間での視覚情報を通した情報交換の行動を方策探査法によって実現した。

研究成果
(8件)

すべて 2019 2018

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件、オープンアクセス 1件) 学会発表 (7件) (うち国際学会 4件、招待講演 2件)

[雑誌論文] Cooperative and Competitive Reinforcement and Imitation Learning for a Mixture of Heterogeneous Learning Modules2018
- 著者名/発表者名
  Eiji Uchibe
- 雑誌名
  
  Frontiers in Neurorobotics
  
  巻: 12
- DOI
  10.3389/fnbot.2018.00061
- 査読あり / オープンアクセス / 国際共著
[学会発表] Imitation learning under entropy regularization2019
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  Workshop on Reinforcement Learning & Biological Intelligence
- 国際学会 / 招待講演
[学会発表] Cooperative and competitive reinforcement and imitation learning2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  The 8th Joint IEEE International Conference on Development and Learning and Epigenetic Robotics
- 国際学会
[学会発表] Deep reinforcement learning by parallelizing reward and punishment using MaxPain architecture2018
- 著者名/発表者名
  Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
- 学会等名
  The 8th Joint IEEE International Conference on Development and Learning and Epigenetic Robotics
- 国際学会
[学会発表] Efficient sample reuse in policy search by multiple importance sampling2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  Genetic and Evolutionary Computation Conference
- 国際学会
[学会発表] 方策探査法のための多重重点サンプリングを用いた経験再利用2018
- 著者名/発表者名
  内部英治
- 学会等名
  ロボティクス・メカトロニクス講演会
[学会発表] EM-based policy search for learning foraging and mating behaviors2018
- 著者名/発表者名
  Jiexin Wang and Eiji Uchibe
- 学会等名
  ロボティクス・メカトロニクス講演会
[学会発表] Forward and inverse reinforcement learning and generative adversarial formulation2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  NC/IBISML/IPSJ-MPS/IPSJ-BIO合同研究会
- 招待講演

2018 年度 実績報告書

カルバックライブラー制御法と内的報酬を統合した強化学習

研究代表者

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

研究成果

[雑誌論文] Cooperative and Competitive Reinforcement and Imitation Learning for a Mixture of Heterogeneous Learning Modules2018

著者名/発表者名

雑誌名

DOI

[学会発表] Imitation learning under entropy regularization2019

著者名/発表者名

学会等名

[学会発表] Cooperative and competitive reinforcement and imitation learning2018

著者名/発表者名

学会等名

[学会発表] Deep reinforcement learning by parallelizing reward and punishment using MaxPain architecture2018

著者名/発表者名

学会等名

[学会発表] Efficient sample reuse in policy search by multiple importance sampling2018

著者名/発表者名

学会等名

[学会発表] 方策探査法のための多重重点サンプリングを用いた経験再利用2018

著者名/発表者名

学会等名

[学会発表] EM-based policy search for learning foraging and mating behaviors2018

著者名/発表者名

学会等名

[学会発表] Forward and inverse reinforcement learning and generative adversarial formulation2018

著者名/発表者名

学会等名

2018 年度実績報告書

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)