• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

環境モデルと戦略の同時学習による深層強化学習

Research Project

Project/Area Number 20H04301
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 62040:Entertainment and game informatics-related
Research InstitutionThe University of Tokyo

Principal Investigator

鶴岡 慶雅  東京大学, 大学院情報理工学系研究科, 教授 (50566362)

Project Period (FY) 2020-04-01 – 2023-03-31
Project Status Granted (Fiscal Year 2021)
Budget Amount *help
¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2022: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Keywords強化学習 / 深層学習 / ゲーム / モデルベース
Outline of Research at the Start

本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略(方策)を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。

Outline of Annual Research Achievements

モデルベース強化学習における課題の一つは、学習された環境モデルの精度の問題である。環境モデルは有限の大きさのサンプルから学習されるために、状態遷移も報酬予測も真のモデルとの間には誤差が存在する。そのため、学習された環境モデルを用いたプランニングの結果にも少なからず誤差が存在し、プランニングの深さや幅を大きくしても必ずしもエージェントの性能が向上するとは限らない。

そこで本年度は、上記の問題に対処する手法として、複数の環境モデルを活用することによって誤差の影響を軽減したプランニングを可能にする手法を開発した。本手法では、各環境モデルの信頼度を、他の多数のモデルとの異なりの大きさによって定量化する。プランニングのための行動列候補の累積報酬の計算を行う際には、信頼度によって重みづけされた報酬を用いることで、信頼性の高い環境モデルによって予測された行動候補列を優先的に考慮する。Open AI Gym 環境を用いた評価実験の結果、本手法が従来のモデル予測制御による手法よりも高い性能を達成することが確認された。

また、上記の問題に対するもう一つの対処法として、複数ステップ先の状態を直接予測するモデル(マルチステップモデル)を利用する手法の研究を行った。複数ステップ先の状態を直接予測することにより、予測誤差の蓄積の問題が軽減することが期待される。モデルを用いて方策の学習を行う際に、モデルの精度に応じて学習に用いるステップ数を調整することで効率的な学習を行う。Atari のゲームを用いて評価実験を行った結果、従来手法よりも高い性能が得られる傾向にあることが確認された。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

モデルベース強化学習の重要な課題のひとつである環境モデルの予測誤差に対応する手法として、上記の研究成果が得られた。提案手法によって環境モデルの信頼性の問題がすべて解決したわけではないものの、予測誤差の問題をある程度軽減することに成功しており、研究の進捗状況としては、おおむね順調に研究が進展しているといえる。

Strategy for Future Research Activity

本年度は、昨年度の研究成果を踏まえて、モデルベース深層強化学習のさらなる性能向上を目指す。モデルベース強化学習の大きな課題のひとつは、学習した環境モデルの誤差が、方策の学習に悪影響を及ぼすことである。そこで本研究プロジェクトでは、将来的な報酬に影響するような要素のみに着目した環境モデルの学習を行うことで、不必要なモデル化誤差を低減させることを目指す。

また、本年度は、エージェントが環境の状態を完全には観測できない状況、いわゆるPOMDP (partially observable Markov decision process)の条件下における深層強化学習の問題にも取り組むことを計画している。Minecraft やローグライクゲームといった複雑なゲームでは、囲碁や将棋のような完全情報ゲームとは異なり、エージェントが観測可能な情報は、キャラクターの視界の範囲内に限定されている。そのため、MDP に基づく通常の深層学習では、キャラクターの視線の方向が変わるといった、人間のプレイヤにとっては些細な変化ですらエージェントの学習に大きな問題を引き起こす。この問題を解決するためには、エージェントに過去の情報を記憶するメカニズムを搭載するというアプローチが考えられる。しかし、方策モデルとして、記憶機構を持つニューラルネットワーク、例えば代表的なリカレントニューラルネットワークであるLSTM (long short-term memory) を利用するだけでは、効率的な強化学習を行うことができないことが知られている。そこで本研究プロジェクトでは、近年自然言語処理の分野で注目されている Transformer モデルをリカレントなモデルに拡張し、方策ネットワークの学習に利用することを試みる。

Report

(1 results)
  • 2020 Annual Research Report

Research Products

(5 results)

All 2020

All Presentation (5 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] 深層強化学習における擬似的な行動による中間フレームの有効活用2020

    • Author(s)
      橋本大世、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] 環境モデルの誤差による影響を抑える強化学習手法2020

    • Author(s)
      中田惇貴、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] 離散行動空間における教師なしスキルの獲得手法2020

    • Author(s)
      海野良介、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] モデルベース強化学習における方策ネットワーク手法の活用2020

    • Author(s)
      藤田航輝、鶴岡慶雅
    • Organizer
      ゲームプログラミングワークショップ2020
    • Related Report
      2020 Annual Research Report
  • [Presentation] Utilizing Skipped Frames in Action Repeats via Pseudo-Actions2020

    • Author(s)
      Taisei Hashimoto, Yoshimasa Tsuruoka
    • Organizer
      NeurIPS 2020 Deep Reinforcement Learning Workshop
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2020-04-28   Modified: 2022-04-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi