Deep Parallel Reinforcement Learning with Model-Free and Model-Based Methods

Publicly Offered Research

Project Area	Correspondence and Fusion of Artificial Intelligence and Brain Science
Project/Area Number	19H05001
Research Category	Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
Allocation Type	Single-year Grants
Review Section	Complex systems
Research Institution	Advanced Telecommunications Research Institute International
Principal Investigator	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
Project Period (FY)	2019-04-01 – 2021-03-31
Project Status	Completed (Fiscal Year 2020)
Budget Amount *help	¥11,700,000 (Direct Cost: ¥9,000,000、Indirect Cost: ¥2,700,000) Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000) Fiscal Year 2019: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Keywords	強化学習 / モデルフリー / モデルベース / 並列学習 / 非同期制御 / モデル学習
Outline of Research at the Start	行動学習モデルの一つである強化学習は環境のモデルを必要としないモデルフリー法，環境のモデルを推定して活用するモデルベース法に大別できる。人の意思決定の直感的・習慣的な要素がモデルフリー強化学習、予測的・計画的な要素がモデルベース強化学習に対応し、ヒトや動物は状況に応じてモデルフリーとモデルベースを共同させて行動学習していることが知られている。我々はこれまでに複数のモデルフリー強化学習を並列に学習させる方式CRAILを開発した。本研究はCRAILを拡張し、モデルベース強化学習を考慮した性質の異なる複数の強化学習モジュールを動的に切り替えて学習効率を改善する並列深層強化学習法を開発する。
Outline of Annual Research Achievements	本研究では並列学習法CRAILにモデルベース学習を導入することでサンプル効率を改善することを目的としている。本年度は以下の成果を得た。 (1) モデルベースとモデルフリーで制御周期が異なることに着目し、パラメータ学習器、行動生成器、モジュール選択器をそれぞれ非同期に実行させるようにCRAILを拡張した。制御周期の異なる方策で収集された経験を使ってパラメータを学習するために、経験再生バッファ間に周波数変換器を導入した。また各学習モジュールの割引率を制御周期に応じて設定できるように修正した。さらにモデル学習法として、1ステップ予測を多段に組み合わせる方法とマルチステップ先の状態を直接予測する方法を導入した。前年度に開発した方法と比較し、学習中期でモデルベース、学習後期でモデルフリーを選択するような発達的学習が確認できた。この成果は人工知能全国大会で発表予定であり、モジュール選択方法に学習機能を追加し、実ロボット実験も加えた結果を国際論文誌に投稿中である。神経科学的観点からの妥当性については久保孝富氏に助言を頂いた。 (2) 正の報酬と負の報酬を区別して学習するMaxPainを深層化したDeep MaxPainを開発し、移動ロボットを用いた実験を実施した。なおロボット実験にはJiexin Wang氏に協力いただいた。単純に報酬を分離して学習する従来法と比較し、MaxPainは実環境でもロバストな方策が学習できることを確認した。この成果はNeural Networks誌に採択された。さらにDeep MaxPainにエントロピ正則を導入したSoft MaxPainを開発した。Soft MaxPainはDeep MaxPainと比較し、ハイパーパラメータの選定に敏感ではなく、実用的な方策が得られやすい手法であることを確認できた。この成果は国際会議に投稿中である。
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。

Report

(2 results)

2020 Annual Research Report
2019 Annual Research Report

Research Products
(9 results)

All 2021 2020 2019

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (7 results) (of which Int'l Joint Research: 2 results, Invited: 3 results)

[Journal Article] Modular deep reinforcement learning from reward and punishment for robot navigation2021
- Author(s)
  Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
- Journal Title
  
  Neural Networks
  
  Volume: 135 Pages: 115-126
- DOI
  10.1016/j.neunet.2020.12.001
- Related Report
  2020 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning2019
- Author(s)
  Shota Ohnishi, Eiji Uchibe, Yotaro Yamaguchi, Kosuke Nakanishi, Yuji Yasui, and Shin Ishii
- Journal Title
  
  Frontiers in Neurorobotics
  
  Volume: 13
- DOI
  10.3389/fnbot.2019.00103
- Related Report
  2019 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] モデルフリーとモデルベース強化学習のための非同期並列学習2021
- Author(s)
  内部英治
- Organizer
  第35回人工知能学会全国大会
- Related Report
  2020 Annual Research Report
[Presentation] モデルフリーとモデルベースの協同による並列深層強化学習2020
- Author(s)
  内部英治
- Organizer
  第34回人工知能学会全国大会
- Related Report
  2020 Annual Research Report
[Presentation] Latent brain dynamics estimation and deep generative imitation learning2020
- Author(s)
  Eiji Uchibe
- Organizer
  31st U.S.-Japan Technology Forum
- Related Report
  2020 Annual Research Report
- Int'l Joint Research / Invited
[Presentation] Parallel deep reinforcement learning with model-free and model-based methods2020
- Author(s)
  Eiji Uchibe
- Organizer
  International Symposium on Artificial Intelligence and Brain Science
- Related Report
  2020 Annual Research Report
- Int'l Joint Research
[Presentation] Parallel reward and punishment learning under entropy regularization2019
- Author(s)
  Eiji Uchibe
- Organizer
  第29回日本神経回路学会全国大会
- Related Report
  2019 Annual Research Report
[Presentation] 強化学習と逆強化学習を組み合わせた模倣学習2019
- Author(s)
  内部英治
- Organizer
  第25回ステアラボ人工知能セミナー
- Related Report
  2019 Annual Research Report
- Invited
[Presentation] 階層強化学習の進展2019
- Author(s)
  内部英治
- Organizer
  第13回Motor Control研究会
- Related Report
  2019 Annual Research Report
- Invited

Deep Parallel Reinforcement Learning with Model-Free and Model-Based Methods

Principal Investigator

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

¥11,700,000 (Direct Cost: ¥9,000,000、Indirect Cost: ¥2,700,000)

Report

Research Products

[Journal Article] Modular deep reinforcement learning from reward and punishment for robot navigation2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning2019

Author(s)

Journal Title

DOI

Related Report

[Presentation] モデルフリーとモデルベース強化学習のための非同期並列学習2021

Author(s)

Organizer

Related Report

[Presentation] モデルフリーとモデルベースの協同による並列深層強化学習2020

Author(s)

Organizer

Related Report

[Presentation] Latent brain dynamics estimation and deep generative imitation learning2020

Author(s)

Organizer

Related Report

[Presentation] Parallel deep reinforcement learning with model-free and model-based methods2020

Author(s)

Organizer

Related Report

[Presentation] Parallel reward and punishment learning under entropy regularization2019

Author(s)

Organizer

Related Report

[Presentation] 強化学習と逆強化学習を組み合わせた模倣学習2019

Author(s)

Organizer

Related Report

[Presentation] 階層強化学習の進展2019

Author(s)

Organizer

Related Report

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)