環境モデルと戦略の同時学習による深層強化学習

研究課題

研究課題/領域番号	20H04301
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分62040:エンタテインメントおよびゲーム情報学関連
研究機関	東京大学
研究代表者	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	16,510千円 (直接経費: 12,700千円、間接経費: 3,810千円) 2022年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円) 2021年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円) 2020年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
キーワード	強化学習 / 深層学習 / 深層強化学習 / ゲームAI / ゲーム / モデルベース
研究開始時の研究の概要	本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略（方策）を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。
研究成果の概要	複数の環境モデルを活用して誤差の影響を軽減するプランニング手法および複数ステップ先の状態を直接予測するマルチステップモデルを開発し、効率的な深層強化学習の実現に成功した。また、部分観測環境における教師なし強化学習のための内発的報酬および行動類似性に基づく潜在状態表現を設計し、強化学習の汎化性能を向上させた。さらに、ローグライクゲームでの報酬設計の改良、オフポリシー強化学習でのメモリ消費の削減、階層強化学習の利用による解釈性の高い戦略の構築を実現した。
研究成果の学術的意義や社会的意義	本研究成果は、モデルベース強化学習における環境モデルのより良い活用法、内発的報酬の設計、潜在状態表現の改善などを深層強化学習に導入することで、深層強化学習の性能を改善し、より効率的で汎用性の高い学習を実現することに貢献するものである。また、社会的には、本研究の成果は、ビデオゲームだけでなく、自動運転、ロボット制御、エネルギー管理など、実世界の多様なタスクに対する深層強化学習の適用可能性を高めることに貢献する可能性がある。

報告書

(4件)

研究成果

(17件)

すべて 2022 2021 2020

すべて学会発表 (17件) (うち国際学会 4件)

[学会発表] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022
- 著者名/発表者名
  Hayato Watahiki and Yoshimasa Tsuruoka
- 学会等名
  ICLR 2022 Workshop on Generalizable Policy Learning in the Physical World
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 階層強化学習を用いた説明可能なゲームAI2022
- 著者名/発表者名
  岩佐拓真, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
- 関連する報告書
  2022 実績報告書
[学会発表] Transformerを用いた麻雀における手牌推定2022
- 著者名/発表者名
  大神卓也, 奈良亮耶, 天野克敏, 今宿祐希, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
- 関連する報告書
  2022 実績報告書
[学会発表] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022
- 著者名/発表者名
  加賀谷昂輝, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
- 関連する報告書
  2022 実績報告書
[学会発表] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022
- 著者名/発表者名
  海野良介, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
- 関連する報告書
  2022 実績報告書
[学会発表] 補助的なエージェントを用いたマルチエージェント強化学習2022
- 著者名/発表者名
  中田惇貴, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
- 関連する報告書
  2022 実績報告書
[学会発表] HiRL: Dealing with Non-stationarity in Hierarchical Reinforcement Learning via High-level Relearning2022
- 著者名/発表者名
  Yuhang Jiao
- 学会等名
  AAAI-22 Workshop on Reinforcement Learning in Games
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 選択的注意機構を用いたロバストな強化学習手法の実現2021
- 著者名/発表者名
  岩瀬諒
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
- 関連する報告書
  2021 実績報告書
[学会発表] 世界モデルによる好奇心と新規性に基づく探索2021
- 著者名/発表者名
  脇聡志
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
- 関連する報告書
  2021 実績報告書
[学会発表] リセット機能を活用したシミュレータにおける効率的な方策学習2021
- 著者名/発表者名
  橋本大世
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
- 関連する報告書
  2021 実績報告書
[学会発表] 外部記憶を用いた部分観測環境における教師なし強化学習2021
- 著者名/発表者名
  中本光彦
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
- 関連する報告書
  2021 実績報告書
[学会発表] Unsupervised Reinforcement Learning for Partially Observable Environments Using External Memory2021
- 著者名/発表者名
  Mitsuhiko Nakamoto
- 学会等名
  NeurIPS 2021 Workshop on Ecological Theory of Reinforcement Learning
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 深層強化学習における擬似的な行動による中間フレームの有効活用2020
- 著者名/発表者名
  橋本大世、鶴岡慶雅
- 学会等名
  ゲームプログラミングワークショップ2020
- 関連する報告書
  2020 実績報告書
[学会発表] 環境モデルの誤差による影響を抑える強化学習手法2020
- 著者名/発表者名
  中田惇貴、鶴岡慶雅
- 学会等名
  ゲームプログラミングワークショップ2020
- 関連する報告書
  2020 実績報告書
[学会発表] 離散行動空間における教師なしスキルの獲得手法2020
- 著者名/発表者名
  海野良介、鶴岡慶雅
- 学会等名
  ゲームプログラミングワークショップ2020
- 関連する報告書
  2020 実績報告書
[学会発表] モデルベース強化学習における方策ネットワーク手法の活用2020
- 著者名/発表者名
  藤田航輝、鶴岡慶雅
- 学会等名
  ゲームプログラミングワークショップ2020
- 関連する報告書
  2020 実績報告書
[学会発表] Utilizing Skipped Frames in Action Repeats via Pseudo-Actions2020
- 著者名/発表者名
  Taisei Hashimoto, Yoshimasa Tsuruoka
- 学会等名
  NeurIPS 2020 Deep Reinforcement Learning Workshop
- 関連する報告書
  2020 実績報告書
- 国際学会

環境モデルと戦略の同時学習による深層強化学習

研究代表者

鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)

16,510千円 (直接経費: 12,700千円、間接経費: 3,810千円)

報告書

研究成果

[学会発表] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 階層強化学習を用いた説明可能なゲームAI2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerを用いた麻雀における手牌推定2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 補助的なエージェントを用いたマルチエージェント強化学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] HiRL: Dealing with Non-stationarity in Hierarchical Reinforcement Learning via High-level Relearning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 選択的注意機構を用いたロバストな強化学習手法の実現2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 世界モデルによる好奇心と新規性に基づく探索2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] リセット機能を活用したシミュレータにおける効率的な方策学習2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 外部記憶を用いた部分観測環境における教師なし強化学習2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unsupervised Reinforcement Learning for Partially Observable Environments Using External Memory2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層強化学習における擬似的な行動による中間フレームの有効活用2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 環境モデルの誤差による影響を抑える強化学習手法2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 離散行動空間における教師なしスキルの獲得手法2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] モデルベース強化学習における方策ネットワーク手法の活用2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Utilizing Skipped Frames in Action Repeats via Pseudo-Actions2020

著者名/発表者名

学会等名

関連する報告書

鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)