• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

環境モデルと戦略の同時学習による深層強化学習

Research Project

Project/Area Number 20H04301
Research InstitutionThe University of Tokyo

Principal Investigator

鶴岡 慶雅  東京大学, 大学院情報理工学系研究科, 教授 (50566362)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords深層強化学習 / ゲームAI
Outline of Annual Research Achievements

本研究プロジェクトが対象とするゲームAI環境のひとつに、ローグライクゲームと呼ばれるダンジョン探索型環境がある。先行研究では「好奇心」による内部報酬を用いた手法が利用されているが、探索済み状態を過剰に避けるなどの問題点が指摘されている。そこで本研究では、ローグライク環境において3種類の報酬設計で学習を行い、提案手法による内発的報酬設計によって学習が促進されることを確認した。
Off-policy 強化学習では、エージェントが環境から収集した遷移データを保持するために大量のメモリが消費される。本研究では,遷移データの学習における優先度を計算し、相対的に重要でないと判断されたものから破棄することで、バッファによるメモリ消費を節約する手法を提案した。本手法により、画像観測の環境において、性能を低下させることなく、リプレイバッファによるメモリ消費を大幅に削減できることが明らかになった。
不完全情報ゲームにおいては、対戦相手の状態など、自分からは見えない情報を、観測可能な情報から推測することが重要である。そこで本研究では、代表的な不完全情報ゲームである麻雀を題材として、相手の手牌を深層学習によって推定する手法を提案した。実験の結果、近年注目を集めている深層学習モデルであるTransformer を用いて自己回帰的に推定することで高精度の推定が可能であることが明らかになった。
強化学習に基づくゲームAI の課題のひとつに、エージェントがどのような戦略に基づいて行動を決定しているのかが人間にとってブラックボックスであるという問題がある。そこで本研究では、説明可能なゲームAI を実現する方法として階層強化学習を用いる手法を提案した。実験では、簡単なAtari環境であるブロック崩しにおいて、AIの戦略を人間が容易に理解可能な形で可視化できることが明らかになった。

Research Progress Status

令和4年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和4年度が最終年度であるため、記入しない。

  • Research Products

    (6 results)

All 2022

All Presentation (6 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022

    • Author(s)
      Hayato Watahiki and Yoshimasa Tsuruoka
    • Organizer
      ICLR 2022 Workshop on Generalizable Policy Learning in the Physical World
    • Int'l Joint Research
  • [Presentation] 階層強化学習を用いた説明可能なゲームAI2022

    • Author(s)
      岩佐 拓真, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
  • [Presentation] Transformerを用いた麻雀における手牌推定2022

    • Author(s)
      大神 卓也, 奈良 亮耶, 天野 克敏, 今宿 祐希, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
  • [Presentation] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022

    • Author(s)
      加賀谷 昂輝, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
  • [Presentation] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022

    • Author(s)
      海野 良介, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)
  • [Presentation] 補助的なエージェントを用いたマルチエージェント強化学習2022

    • Author(s)
      中田 惇貴, 鶴岡 慶雅
    • Organizer
      第27回ゲームプログラミングワークショップ (GPW22)

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi