2019 Fiscal Year Research-status Report

Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making

Research Project

Project/Area Number	19K12118
Research Institution	Nagoya Institute of Technology
Principal Investigator	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化
Outline of Annual Research Achievements	本研究は，計算機シミュレーションにより，行動主体（エージェント）が複数存在する環境で協力行動が生まれる過程を議論するものである．特に，個々のエージェントが我々人間のように，意思決定方法を学習により獲得し，その意思決定の結果を自己評価する機構を持つものとして考える．これまで，ゲーム理論における繰り返しゲームにおいて，協力行動をもたらす自己評価機構が進化によりもたらされることを明らかにした．本研究では，繰り返しゲームでなく，現実に近い連続的な意思決定を必要とする環境で議論を行う．その環境としてコンピュータゲーム，特に複数のエージェントが「協力すべき」ゲームを対象とし，エージェント間の協力をもたらす評価システムが発生するか否か，およびその発生のための要件について考察する．研究初年度は，まず対象とする「協力すべき」ゲームについて調査を行った．GVGAI競技会の2人ゲーム部門における2者の協力を必要とするゲームに加え，別の競技会におけるゲームについても調査を行った．これら過去の競技会で優秀な成績を収めている手法についての調査も同時に行っている．さらに，これまでの繰り返しゲームにおける手法の適用を試みた．繰り返しゲームの場合，過去の意思決定結果は以後の意思決定に直接的には作用しないため，明示的に環境状態を考慮する必要はない．しかし，連続的な意思決定を必要とするゲームにおいては，環境状態を考慮しなくてはならない．この環境状態をどのように表現すべきかの検討，および手法そのものの再検討に時間がかかることが明らかとなった．その他，強化学習における自己評価システムに関する研究，マルチエージェント強化学習シミュレーションの並列化による高速化に関する研究，および従来研究の補強として，繰り返しゲームへの異なる強化学習手法の適用に関する研究などを行った．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初計画では既に最初の計算機シミュレーションを行っているはずであったが，既存のゲームの調査，状態表現の検討やこれまでの手法の再検討に想定以上に時間がかかっており，まだそこまで至っていない．そのために，当初計画より若干遅れていると考える．
Strategy for Future Research Activity	まず，状態表現の検討，繰り返しゲーム用の手法の再検討を進め，検討結果の計算機上への実装を早急に行う．次に，計算機シミュレーションにより，各ゲームにおける自己評価メカニズムの進化傾向を観察する．入力である状態および出力である行動がゲームにより異なるため，仮にあるゲームで協調をもたらす自己評価メカニズムが得られたとしても，それをそのまま他のゲームに適用してもうまくいかないはずである．そこで，各ゲームにおけるメカニズムの導出過程自体を観察し，それを制御する方法を検討する．まず，あるゲームで協力行動を導くメカニズムが導出された場合に，そのメカニズムの導出過程を詳細に調査し，他のゲームでも同様の過程が現れるように，メカニズムの探索空間を制御する方法が考えられる．
Causes of Carryover	（理由）当初予算に計上した計算機の購入が当初予定より遅れている．また，新型コロナウイルス感染症の流行により，年度末の出張が中止になり，旅費の支出が減少した．（使用計画）計算機についてはこれから購入する予定である．また，新型コロナウイルス感染症の流行が落ち着き次第，研究動向調査や研究発表のため，国内・海外の学会などへの出張を行う予定である．さらに，知識を得るための文献等の購入や，研究成果の発表に伴う論文投稿費などに使用する予定である．

Research Products
(3 results)

All 2020 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019
- Author(s)
  Koichi Moriyama, Yoshiya Kurogi, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
- Journal Title
  
  Proceedings of IEEE International Conference on Agents (ICA)
  
  Volume: - Pages: 50-55
- DOI
  10.1109/AGENTS.2019.8929206
- Peer Reviewed
[Presentation] 深層強化学習における時系列的内部報酬生成器による探索の改善2020
- Author(s)
  村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- Organizer
  情報処理学会第127回数理モデル化と問題解決研究会
[Presentation] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020
- Author(s)
  百武佳輝, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- Organizer
  情報処理学会第82回全国大会

2019 Fiscal Year Research-status Report

Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making

Principal Investigator

森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019

Author(s)

Journal Title

DOI

[Presentation] 深層強化学習における時系列的内部報酬生成器による探索の改善2020

Author(s)

Organizer

[Presentation] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020

Author(s)

Organizer

森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)