2020 年度実施状況報告書

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

研究課題

研究課題/領域番号	18K19832
研究機関	東京大学
研究代表者	金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)
研究期間 (年度)	2018-06-29 – 2022-03-31
キーワード	ゲームプログラミング
研究実績の概要	人工知能分野の強化学習では，環境の中で自律的に行動するAIエージェントを想定し，そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する．本研究の目的は，不完全情報かつ多人数のゲームを題材に，モデルを持つ深層強化学習に関する基盤技術を開発することで，AIエージェントの劇的な性能向上をより広い分野で実現することにある．強化学習は，汎用性の高い枠組みで，エージェントと環境の相互作用を扱う．エージェントが「行動」することで「環境」に働きかけ，環境はエージェント行動と他の要因により確率的に「状態」を変え，エージェントは状態の一部を観測し，ときおり報酬(ペナルティを含む)を得る．ここで，どのような状態でどう行動するとどのような結果につながるかは事前に分からないだけでなく，確率的に結果が異なることもあるとする．そのため，エージェントは試行錯誤を繰り返して環境を理解する必要がある．本研究ではその対象をさらに広げて，現実に近い複雑さを持つ問題の例として，不完全情報かつ多人数のゲームを扱う．不完全情報とは，観測できない状態が存在することであり，多人数とは，状況によって敵にも味方にもなりうる他者が存在することである．問題が複雑になるほど，エージェントの学習は困難になる．そこで本研究では，既存技術である深層学習に加えて，不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを，新たに提唱し，核となる技術の確率を目指す．研究の三年度目として，本年度は昨年度までの成果を踏まえて，プレイヤが1人または2人の不完全情報ゲームにおける強化学習技術を拡張して，エージェントが3人以上の環境での学習技術に取り組んだ．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究計画に照らして，三年間で概ね妥当な技術を開発し評価している．
今後の研究の推進方策	今年度までに取り組んだ成果をより発展させるとともに，マルチエージェント環境での強化学習の評価実験を拡充し論文を出版する．
次年度使用額が生じた理由	補助事業の目的をより精緻に達成するための研究の実施(追加実験の実施や学会参加、論文投稿など)にあてるために補助事業期間の延長を申請し受理されたことによる．次年度に、追加実験の実施や学会参加、論文投稿を行う経費として使用する．

研究成果

(10件)

すべて 2020

すべて雑誌論文 (6件) (うち査読あり 5件、オープンアクセス 4件) 学会発表 (4件) (うち国際学会 3件)

[雑誌論文] Playing catan with cross-dimensional neural network2020
- 著者名/発表者名
  Gendre and Kaneko
- 雑誌名
  
  ICONIP
  
  巻: 12533 ページ: 580-592
- DOI
  10.1007/978-3-030-63833-7_49
- 査読あり
[雑誌論文] Evaluation of loss function for stable policy learning in dobutsu shogi2020
- 著者名/発表者名
  Nakayashiki and Kaneko
- 雑誌名
  
  International conference on technologies and applications of artificial intelligence
  
  巻: N/A ページ: 175-180
- 査読あり
[雑誌論文] Ceramic: A research environment based on the multi-player strategic board game azul2020
- 著者名/発表者名
  Gendre and Kaneko
- 雑誌名
  
  25th game programming workshop
  
  巻: 978-4-907626-46-4 C3804 ページ: 155-160
- 査読あり / オープンアクセス
[雑誌論文] Diverse exploration via infomax options2020
- 著者名/発表者名
  Kanagawa and Kaneko
- 雑誌名
  
  Arxiv
  
  巻: 978-4-907626-46-4 C3804 ページ: 1-21
- オープンアクセス
[雑誌論文] 離散行動空間における soft actor-critic の評価2020
- 著者名/発表者名
  合田金子
- 雑誌名
  
  第25回ゲームプログラミングワークショップ
  
  巻: 978-4-907626-46-4 C3804 ページ: 175-180
- 査読あり / オープンアクセス
[雑誌論文] 逆転の余地を考慮した評価関数の設計とどうぶつしょうぎによる評価2020
- 著者名/発表者名
  中屋敷金子
- 雑誌名
  
  第25回ゲームプログラミングワークショップ
  
  巻: 978-4-907626-46-4 C3804 ページ: 22-29
- 査読あり / オープンアクセス
[学会発表] Improve counterfactual regret minimization for card game cheat2020
- 著者名/発表者名
  Yi and Kaneko
- 学会等名
  25th game programming workshop
- 国際学会
[学会発表] Application of dream to the board game geister2020
- 著者名/発表者名
  Chen and Kaneko
- 学会等名
  25th game programming workshop
- 国際学会
[学会発表] Training japanese mahjong agent with two dimension feature representation2020
- 著者名/発表者名
  Honghai and Kaneko
- 学会等名
  25th game programming workshop
- 国際学会
[学会発表] ProcgenBenchmark における汎化性能を高める強化学習2020
- 著者名/発表者名
  徐金子
- 学会等名
  第25回ゲームプログラミングワークショップ

2020 年度 実施状況報告書

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

研究代表者

金子 知適 東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Playing catan with cross-dimensional neural network2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Evaluation of loss function for stable policy learning in dobutsu shogi2020

著者名/発表者名

雑誌名

[雑誌論文] Ceramic: A research environment based on the multi-player strategic board game azul2020

著者名/発表者名

雑誌名

[雑誌論文] Diverse exploration via infomax options2020

著者名/発表者名

雑誌名

[雑誌論文] 離散行動空間における soft actor-critic の評価2020

著者名/発表者名

雑誌名

[雑誌論文] 逆転の余地を考慮した評価関数の設計とどうぶつしょうぎによる評価2020

著者名/発表者名

雑誌名

[学会発表] Improve counterfactual regret minimization for card game cheat2020

著者名/発表者名

学会等名

[学会発表] Application of dream to the board game geister2020

著者名/発表者名

学会等名

[学会発表] Training japanese mahjong agent with two dimension feature representation2020

著者名/発表者名

学会等名

[学会発表] ProcgenBenchmark における汎化性能を高める強化学習2020

著者名/発表者名

学会等名

2020 年度実施状況報告書

金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)