• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Deep Parallel Reinforcement Learning with Model-Free and Model-Based Methods

Publicly Offered Research

Project AreaCorrespondence and Fusion of Artificial Intelligence and Brain Science
Project/Area Number 19H05001
Research Category

Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)

Allocation TypeSingle-year Grants
Review Section Complex systems
Research InstitutionAdvanced Telecommunications Research Institute International

Principal Investigator

内部 英治  株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

Project Period (FY) 2019-04-01 – 2021-03-31
Project Status Completed (Fiscal Year 2020)
Budget Amount *help
¥11,700,000 (Direct Cost: ¥9,000,000、Indirect Cost: ¥2,700,000)
Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2019: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Keywords強化学習 / モデルフリー / モデルベース / 並列学習 / 非同期制御 / モデル学習
Outline of Research at the Start

行動学習モデルの一つである強化学習は環境のモデルを必要としないモデルフリー法,環境のモデルを推定して活用するモデルベース法に大別できる。人の意思決定の直感的・習慣的な要素がモデルフリー強化学習、予測的・計画的な要素がモデルベース強化学習に対応し、ヒトや動物は状況に応じてモデルフリーとモデルベースを共同させて行動学習していることが知られている。我々はこれまでに複数のモデルフリー強化学習を並列に学習させる方式CRAILを開発した。本研究はCRAILを拡張し、モデルベース強化学習を考慮した性質の異なる複数の強化学習モジュールを動的に切り替えて学習効率を改善する並列深層強化学習法を開発する。

Outline of Annual Research Achievements

本研究では並列学習法CRAILにモデルベース学習を導入することでサンプル効率を改善することを目的としている。本年度は以下の成果を得た。
(1) モデルベースとモデルフリーで制御周期が異なることに着目し、パラメータ学習器、行動生成器、モジュール選択器をそれぞれ非同期に実行させるようにCRAILを拡張した。制御周期の異なる方策で収集された経験を使ってパラメータを学習するために、経験再生バッファ間に周波数変換器を導入した。また各学習モジュールの割引率を制御周期に応じて設定できるように修正した。さらにモデル学習法として、1ステップ予測を多段に組み合わせる方法とマルチステップ先の状態を直接予測する方法を導入した。前年度に開発した方法と比較し、学習中期でモデルベース、学習後期でモデルフリーを選択するような発達的学習が確認できた。この成果は人工知能全国大会で発表予定であり、モジュール選択方法に学習機能を追加し、実ロボット実験も加えた結果を国際論文誌に投稿中である。神経科学的観点からの妥当性については久保孝富氏に助言を頂いた。
(2) 正の報酬と負の報酬を区別して学習するMaxPainを深層化したDeep MaxPainを開発し、移動ロボットを用いた実験を実施した。なおロボット実験にはJiexin Wang氏に協力いただいた。単純に報酬を分離して学習する従来法と比較し、MaxPainは実環境でもロバストな方策が学習できることを確認した。この成果はNeural Networks誌に採択された。さらにDeep MaxPainにエントロピ正則を導入したSoft MaxPainを開発した。Soft MaxPainはDeep MaxPainと比較し、ハイパーパラメータの選定に敏感ではなく、実用的な方策が得られやすい手法であることを確認できた。この成果は国際会議に投稿中である。

Research Progress Status

令和2年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和2年度が最終年度であるため、記入しない。

Report

(2 results)
  • 2020 Annual Research Report
  • 2019 Annual Research Report
  • Research Products

    (9 results)

All 2021 2020 2019

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (7 results) (of which Int'l Joint Research: 2 results,  Invited: 3 results)

  • [Journal Article] Modular deep reinforcement learning from reward and punishment for robot navigation2021

    • Author(s)
      Jiexin Wang, Stefan Elfwing, and Eiji Uchibe
    • Journal Title

      Neural Networks

      Volume: 135 Pages: 115-126

    • DOI

      10.1016/j.neunet.2020.12.001

    • Related Report
      2020 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning2019

    • Author(s)
      Shota Ohnishi, Eiji Uchibe, Yotaro Yamaguchi, Kosuke Nakanishi, Yuji Yasui, and Shin Ishii
    • Journal Title

      Frontiers in Neurorobotics

      Volume: 13

    • DOI

      10.3389/fnbot.2019.00103

    • Related Report
      2019 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] モデルフリーとモデルベース強化学習のための非同期並列学習2021

    • Author(s)
      内部英治
    • Organizer
      第35回人工知能学会全国大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] モデルフリーとモデルベースの協同による並列深層強化学習2020

    • Author(s)
      内部英治
    • Organizer
      第34回人工知能学会全国大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] Latent brain dynamics estimation and deep generative imitation learning2020

    • Author(s)
      Eiji Uchibe
    • Organizer
      31st U.S.-Japan Technology Forum
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] Parallel deep reinforcement learning with model-free and model-based methods2020

    • Author(s)
      Eiji Uchibe
    • Organizer
      International Symposium on Artificial Intelligence and Brain Science
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Parallel reward and punishment learning under entropy regularization2019

    • Author(s)
      Eiji Uchibe
    • Organizer
      第29回日本神経回路学会全国大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 強化学習と逆強化学習を組み合わせた模倣学習2019

    • Author(s)
      内部英治
    • Organizer
      第25回ステアラボ人工知能セミナー
    • Related Report
      2019 Annual Research Report
    • Invited
  • [Presentation] 階層強化学習の進展2019

    • Author(s)
      内部英治
    • Organizer
      第13回Motor Control研究会
    • Related Report
      2019 Annual Research Report
    • Invited

URL: 

Published: 2019-04-18   Modified: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi