2020 Fiscal Year Annual Research Report

Deep Parallel Reinforcement Learning with Model-Free and Model-Based Methods

Publicly Offered Research

Project Area	Correspondence and Fusion of Artificial Intelligence and Brain Science
Project/Area Number	19H05001
Research Institution	Advanced Telecommunications Research Institute International
Principal Investigator	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
Project Period (FY)	2019-04-01 – 2021-03-31
Keywords	強化学習 / モデルフリー / モデルベース / 並列学習 / 非同期制御
Outline of Annual Research Achievements	本研究では並列学習法CRAILにモデルベース学習を導入することでサンプル効率を改善することを目的としている。本年度は以下の成果を得た。 (1) モデルベースとモデルフリーで制御周期が異なることに着目し、パラメータ学習器、行動生成器、モジュール選択器をそれぞれ非同期に実行させるようにCRAILを拡張した。制御周期の異なる方策で収集された経験を使ってパラメータを学習するために、経験再生バッファ間に周波数変換器を導入した。また各学習モジュールの割引率を制御周期に応じて設定できるように修正した。さらにモデル学習法として、1ステップ予測を多段に組み合わせる方法とマルチステップ先の状態を直接予測する方法を導入した。前年度に開発した方法と比較し、学習中期でモデルベース、学習後期でモデルフリーを選択するような発達的学習が確認できた。この成果は人工知能全国大会で発表予定であり、モジュール選択方法に学習機能を追加し、実ロボット実験も加えた結果を国際論文誌に投稿中である。神経科学的観点からの妥当性については久保孝富氏に助言を頂いた。 (2) 正の報酬と負の報酬を区別して学習するMaxPainを深層化したDeep MaxPainを開発し、移動ロボットを用いた実験を実施した。なおロボット実験にはJiexin Wang氏に協力いただいた。単純に報酬を分離して学習する従来法と比較し、MaxPainは実環境でもロバストな方策が学習できることを確認した。この成果はNeural Networks誌に採択された。さらにDeep MaxPainにエントロピ正則を導入したSoft MaxPainを開発した。Soft MaxPainはDeep MaxPainと比較し、ハイパーパラメータの選定に敏感ではなく、実用的な方策が得られやすい手法であることを確認できた。この成果は国際会議に投稿中である。
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。
Remarks	E. Uchibe, and K. Doya. Forward and inverse reinforcement learning for imitation. arXiv:2008.07284. 2020.

Research Products
(5 results)

All 2021 2020

All Journal Article (1 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 1 results, Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results, Invited: 1 results)

[Journal Article] Modular deep reinforcement learning from reward and punishment for robot navigation2021
- Author(s)
  Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
- Journal Title
  
  Neural Networks
  
  Volume: 135 Pages: 115-126
- DOI
  10.1016/j.neunet.2020.12.001
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] モデルフリーとモデルベース強化学習のための非同期並列学習2021
- Author(s)
  内部英治
- Organizer
  第35回人工知能学会全国大会
[Presentation] モデルフリーとモデルベースの協同による並列深層強化学習2020
- Author(s)
  内部英治
- Organizer
  第34回人工知能学会全国大会
[Presentation] Latent brain dynamics estimation and deep generative imitation learning2020
- Author(s)
  Eiji Uchibe
- Organizer
  31st U.S.-Japan Technology Forum
- Int'l Joint Research / Invited
[Presentation] Parallel deep reinforcement learning with model-free and model-based methods2020
- Author(s)
  Eiji Uchibe
- Organizer
  International Symposium on Artificial Intelligence and Brain Science
- Int'l Joint Research

2020 Fiscal Year Annual Research Report

Deep Parallel Reinforcement Learning with Model-Free and Model-Based Methods

Principal Investigator

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

Research Products

[Journal Article] Modular deep reinforcement learning from reward and punishment for robot navigation2021

Author(s)

Journal Title

DOI

[Presentation] モデルフリーとモデルベース強化学習のための非同期並列学習2021

Author(s)

Organizer

[Presentation] モデルフリーとモデルベースの協同による並列深層強化学習2020

Author(s)

Organizer

[Presentation] Latent brain dynamics estimation and deep generative imitation learning2020

Author(s)

Organizer

[Presentation] Parallel deep reinforcement learning with model-free and model-based methods2020

Author(s)

Organizer

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)