並列深層強化学習

公募研究

研究領域	人工知能と脳科学の対照と融合
研究課題/領域番号	17H06042
研究種目	新学術領域研究(研究領域提案型)
配分区分	補助金
審査区分	複合領域
研究機関	株式会社国際電気通信基礎技術研究所
研究代表者	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
研究期間 (年度)	2017-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円) 2018年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円) 2017年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
キーワード	強化学習 / 深層学習 / 並列学習 / 重点サンプリング / 模倣学習 / 逆強化学習 / 機械学習
研究実績の概要	本研究では深層強化学習の学習効率を改善するための並列学習法を開発することを目的としている。本年度は以下の成果を得た。 (1) 多重重点サンプリングと自己模倣を用いた並列強化学習：適切なネットワーク構造と学習アルゴリズムを選択するためには、従来実験者が試行錯誤的に予備実験を繰り返す必要があった。開発した学習法CRAILは複数の強化学習モジュールを同時並列的かつ協調・競合的に学習させることで、自動的に性能の良い組み合わせを状況に応じて選択する。強化学習モジュール間での収集データを共用するためには前年度に開発した多重重点サンプリングを用いた。また合成方策との模倣学習を導入することで、現在の学習モジュールの方策が合成方策のモジュールと著しく異なっている場合にも学習が行われるようにした。これにより、以前に開発した並列強化学習法CLISと比較し学習効率を大幅に改善することができた。またCRAILはロボットの物理パラメータの変化にも動的に学習モジュールを切り替えることで対処できることを示した。 (2) 報酬の符号に応じた並列学習法の提案：ベルマン最適方程式を用いた強化学習では、状態遷移後の価値を評価するためにmax演算子を用いるため、報酬値が負の場合にうまく出伝播されず将来受け取る大きなリスクを回避することができないという問題があった。そこでMaxPainと呼ばれる並列学習法を開発したが、ニューラルネットワークを用いない単純な問題に対してのみ適用していた。そこでMaxPainを深層強化学習化したDeep MaxPainを開発し、ロボットナビゲーションなどの大規模な問題に適用した。Deep MaxPainでは二つのネットワークの合成法として価値関数の合成と方策の合成の二つを検討した。Deep MaxPainはHRAなど従来法よりもリスクを安全に回避しつつサンプル効率を改善できた。
現在までの達成度 (段落)	平成30年度が最終年度であるため、記入しない。
今後の研究の推進方策	平成30年度が最終年度であるため、記入しない。

報告書

(2件)

2018 実績報告書
2017 実績報告書

研究成果
(16件)

すべて 2019 2018 2017

すべて雑誌論文 (5件) (うち国際共著 3件、査読あり 4件、オープンアクセス 4件) 学会発表 (11件) (うち国際学会 7件、招待講演 3件)

[雑誌論文] Cooperative and Competitive Reinforcement and Imitation Learning for a Mixture of Heterogeneous Learning Modules2018
- 著者名/発表者名
  Eiji Uchibe
- 雑誌名
  
  Frontiers in Neurorobotics
  
  巻: 12
- DOI
  10.3389/fnbot.2018.00061
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Model-Free Deep Inverse Reinforcement Learning by Logistic Regression2018
- 著者名/発表者名
  Eiji Uchibe
- 雑誌名
  
  Neural Processing Letters
  
  巻: 47 号: 3 ページ: 891-905
- DOI
  10.1007/s11063-017-9702-7
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Sigmoid-weighted linear units for neural network function approximation in reinforcement learning2018
- 著者名/発表者名
  Elfwing S, Uchibe E, Doya K
- 雑誌名
  
  Neural Networks
  
  巻: 2017 Specail issue ページ: 30297-6
- DOI
  10.1016/j.neunet.2017.12.012
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Robustness of linearly solvable Markov games employing inaccurate dynamics model2018
- 著者名/発表者名
  Ken Kinjo, Eiji Uchibe, and Kenji Doya
- 雑誌名
  
  Artificial Life and Robotics
  
  巻: 23 号: 1 ページ: 1-9
- DOI
  10.1007/s10015-017-0401-2
- 関連する報告書
  2017 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] ロボット制御のための決定論的方策探査法2017
- 著者名/発表者名
  内部英治, 王潔心
- 雑誌名
  
  日本神経回路学会誌
  
  巻: 24 号: 4 ページ: 195-203
- DOI
  10.3902/jnns.24.195
- NAID
  130006337689
- ISSN
  1340-766X, 1883-0455
- 関連する報告書
  2017 実績報告書
[学会発表] Theoretical Analysis of Efficiency and Robustness of Softmax and Gap-Increasing Operators in Reinforcement Learning2019
- 著者名/発表者名
  Tadashi Kozuno, Eiji Uchibe, and Kenji Doya
- 学会等名
  The 22nd International Conference on Artificial Intelligence and Statistics
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Imitation learning under entropy regularization2019
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  Workshop on Reinforcement Learning & Biological Intelligence
- 関連する報告書
  2018 実績報告書
- 国際学会 / 招待講演
[学会発表] Deep reinforcement learning by parallelizing reward and punishment using MaxPain architecture2018
- 著者名/発表者名
  Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
- 学会等名
  The 8th Joint IEEE International Conference on Development and Learning and Epigenetic Robotics
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Cooperative and competitive reinforcement and imitation learning2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  The 8th Joint IEEE International Conference on Development and Learning and Epigenetic Robotics
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Efficient Sample Reuse in Policy Search by Multiple Importance Sampling2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  Genetic and Evolutionary Computation Conference
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Online Meta-Learning by Parallel Algorithm Competition2018
- 著者名/発表者名
  Stefan Elfwing, Eiji Uchibe, and Kenji Doya
- 学会等名
  Genetic and Evolutionary Computation Conference
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 方策探査法のための多重重点サンプリングを用いた経験再利用2018
- 著者名/発表者名
  内部英治
- 学会等名
  ロボティクス・メカトロニクス講演会
- 関連する報告書
  2018 実績報告書
[学会発表] EM-based policy search for learning foraging and mating behaviors2018
- 著者名/発表者名
  Jiexin Wang and Eiji Uchibe
- 学会等名
  ロボティクス・メカトロニクス講演会
- 関連する報告書
  2018 実績報告書
[学会発表] Forward and inverse reinforcement learning and generative adversarial formulation2018
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  NC/IBISML/IPSJ-MPS/IPSJ-BIO合同研究会
- 関連する報告書
  2018 実績報告書
- 招待講演
[学会発表] Deep inverse reinforcement learning2017
- 著者名/発表者名
  E. Uchibe
- 学会等名
  The Third International Workshop on Intrinsically Motivated Open-ended learning
- 関連する報告書
  2017 実績報告書
- 国際学会 / 招待講演
[学会発表] ディープNNによる順・逆強化学習2017
- 著者名/発表者名
  内部英治
- 学会等名
  第27回日本神経回路学会全国大会
- 関連する報告書
  2017 実績報告書

並列深層強化学習

研究代表者

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)

報告書

研究成果

[雑誌論文] Cooperative and Competitive Reinforcement and Imitation Learning for a Mixture of Heterogeneous Learning Modules2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Model-Free Deep Inverse Reinforcement Learning by Logistic Regression2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Sigmoid-weighted linear units for neural network function approximation in reinforcement learning2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Robustness of linearly solvable Markov games employing inaccurate dynamics model2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] ロボット制御のための決定論的方策探査法2017

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] Theoretical Analysis of Efficiency and Robustness of Softmax and Gap-Increasing Operators in Reinforcement Learning2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Imitation learning under entropy regularization2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Deep reinforcement learning by parallelizing reward and punishment using MaxPain architecture2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Cooperative and competitive reinforcement and imitation learning2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Efficient Sample Reuse in Policy Search by Multiple Importance Sampling2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Online Meta-Learning by Parallel Algorithm Competition2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 方策探査法のための多重重点サンプリングを用いた経験再利用2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] EM-based policy search for learning foraging and mating behaviors2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Forward and inverse reinforcement learning and generative adversarial formulation2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Deep inverse reinforcement learning2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] ディープNNによる順・逆強化学習2017

著者名/発表者名

学会等名

関連する報告書

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)