• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Deep Reinforcement Learning by Simultaneous Learning of Environment Models and Strategies

Research Project

Project/Area Number 20H04301
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 62040:Entertainment and game informatics-related
Research InstitutionThe University of Tokyo

Principal Investigator

Tsuruoka Yoshimasa  東京大学, 大学院情報理工学系研究科, 教授 (50566362)

Project Period (FY) 2020-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2022: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Keywords強化学習 / 深層学習 / 深層強化学習 / ゲームAI / ゲーム / モデルベース
Outline of Research at the Start

本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略(方策)を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。

Outline of Final Research Achievements

We developed a planning method that leverages multiple environment models to reduce the impact of errors, and a multi-step model that directly predicts states several steps ahead, successfully achieving efficient deep reinforcement learning. We also designed an intrinsic reward and a latent state representation based on action similarity for unsupervised reinforcement learning in partially observable environments, improving the generalization performance of reinforcement learning. Furthermore, we improved the design of rewards in roguelike games, reduced memory consumption in off-policy reinforcement learning, and realized the construction of highly interpretable strategies through the use of hierarchical reinforcement learning.

Academic Significance and Societal Importance of the Research Achievements

本研究成果は、モデルベース強化学習における環境モデルのより良い活用法、内発的報酬の設計、潜在状態表現の改善などを深層強化学習に導入することで、深層強化学習の性能を改善し、より効率的で汎用性の高い学習を実現することに貢献するものである。また、社会的には、本研究の成果は、ビデオゲームだけでなく、自動運転、ロボット制御、エネルギー管理など、実世界の多様なタスクに対する深層強化学習の適用可能性を高めることに貢献する可能性がある。

Report

(4 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Annual Research Report
  • 2020 Annual Research Report
  • Research Products

    (17 results)

All 2022 2021 2020

All Presentation (17 results) (of which Int'l Joint Research: 4 results)

  • [Presentation] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022

    • Author(s)
      Hayato Watahiki and Yoshimasa Tsuruoka
    • Organizer
      ICLR 2022 Workshop on Generalizable Policy Learning in the Physical World
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 階層強化学習を用いた説明可能なゲームAI2022

    • Author(s)
      岩佐 拓真, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
    • Related Report
      2022 Annual Research Report
  • [Presentation] Transformerを用いた麻雀における手牌推定2022

    • Author(s)
      大神 卓也, 奈良 亮耶, 天野 克敏, 今宿 祐希, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022

    • Author(s)
      加賀谷 昂輝, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
    • Related Report
      2022 Annual Research Report
  • [Presentation] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022

    • Author(s)
      海野 良介, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 補助的なエージェントを用いたマルチエージェント強化学習2022

    • Author(s)
      中田 惇貴, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
    • Related Report
      2022 Annual Research Report
  • [Presentation] HiRL: Dealing with Non-stationarity in Hierarchical Reinforcement Learning via High-level Relearning2022

    • Author(s)
      Yuhang Jiao
    • Organizer
      AAAI-22 Workshop on Reinforcement Learning in Games
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 選択的注意機構を用いたロバストな強化学習手法の実現2021

    • Author(s)
      岩瀬 諒
    • Organizer
      第26回ゲームプログラミングワークショップ (GPW21)
    • Related Report
      2021 Annual Research Report
  • [Presentation] 世界モデルによる好奇心と新規性に基づく探索2021

    • Author(s)
      脇 聡志
    • Organizer
      第26回ゲームプログラミングワークショップ (GPW21)
    • Related Report
      2021 Annual Research Report
  • [Presentation] リセット機能を活用したシミュレータにおける効率的な方策学習2021

    • Author(s)
      橋本 大世
    • Organizer
      第26回ゲームプログラミングワークショップ (GPW21)
    • Related Report
      2021 Annual Research Report
  • [Presentation] 外部記憶を用いた部分観測環境における教師なし強化学習2021

    • Author(s)
      中本 光彦
    • Organizer
      第26回ゲームプログラミングワークショップ (GPW21)
    • Related Report
      2021 Annual Research Report
  • [Presentation] Unsupervised Reinforcement Learning for Partially Observable Environments Using External Memory2021

    • Author(s)
      Mitsuhiko Nakamoto
    • Organizer
      NeurIPS 2021 Workshop on Ecological Theory of Reinforcement Learning
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 深層強化学習における擬似的な行動による中間フレームの有効活用2020

    • Author(s)
      橋本大世、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] 環境モデルの誤差による影響を抑える強化学習手法2020

    • Author(s)
      中田惇貴、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] 離散行動空間における教師なしスキルの獲得手法2020

    • Author(s)
      海野良介、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] モデルベース強化学習における方策ネットワーク手法の活用2020

    • Author(s)
      藤田航輝、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] Utilizing Skipped Frames in Action Repeats via Pseudo-Actions2020

    • Author(s)
      Taisei Hashimoto, Yoshimasa Tsuruoka
    • Organizer
      NeurIPS 2020 Deep Reinforcement Learning Workshop
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2020-04-28   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi