2023 Fiscal Year Annual Research Report

Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making

Research Project

Project/Area Number	19K12118
Research Institution	Nagoya Institute of Technology
Principal Investigator	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
Project Period (FY)	2019-04-01 – 2024-03-31
Keywords	マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化
Outline of Annual Research Achievements	本研究では，計算機シミュレーションにより，行動主体（エージェント）が複数存在する環境における協力行動の発生を議論した．現実に近い連続的な意思決定を要する環境として，複数のエージェントが協力すべきゲーム（以下「連続ゲーム」）を対象とし，個々が意思決定方策を強化学習により獲得する．得られた報酬を各自が評価して学習に反映させるとした時，エージェント間の協力をもたらす評価システムが進化により発生するか否か，およびその要件について考察した．まず，「連続ゲーム」に，単一の意思決定を繰り返す「繰り返しゲーム」の評価システムの進化手法を適用したが，再検討が必要となった．そこで，この評価を表す関数の一般化を行った．結果として「繰り返しゲーム」では協力行動を導く評価システムが得られ，「連続ゲーム」でも特定の環境の制約された状況で同様の結果が得られたが，協力行動を導く一般的な要件までは解明できなかった．「連続ゲーム」の多くには共有の目的があり，個々の目的と全体目的が対立するジレンマ状況は起きにくい．ジレンマ状況を「連続ゲーム」に拡張した概念に逐次社会的ジレンマ(SSD)がある．研究の今後の進展には扱いやすいSSD環境が必要と考え，SSDの条件を満たす簡単な「連続ゲーム」を考案した．近年，単一エージェント環境において内部評価を用いた強化学習で行動の獲得を試みる研究が提案された．そこで，それらを「連続ゲーム」の一種である追跡問題に適用して調査した．まず，内部評価により探索行動を促す好奇心探索では，獲物の逃げ道を塞ぐような協調行動が現れた．内発的動機付け強化学習の一研究である遺伝的プログラミングによる評価関数の構成手法では，得られた評価関数で獲物獲得回数の増加が見られた．しかし，協力行動をもたらす内部評価の発生要件の解明には至らなかった．

Research Products
(6 results)

All 2024 2023

All Journal Article (6 results) (of which Peer Reviewed: 2 results, Open Access: 5 results)

[Journal Article] 獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入2024
- Author(s)
  稲垣佑竜, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
- Journal Title
  
  情報処理学会研究報告
  
  Volume: 2024-ICS-212 (2) Pages: 1-7
- Open Access
[Journal Article] Geometry Friendsにおけるカリキュラム学習を用いた協調行動の獲得2024
- Author(s)
  梶野嘉人, 森山甲一, 島孔介, 松井藤五郎, 武藤敦子, 犬塚信博
- Journal Title
  
  情報処理学会研究報告
  
  Volume: 2024-GI-51 (21) Pages: 1-7
- Open Access
[Journal Article] マルチエージェント環境下における強化学習エージェントの評価関数の特定2024
- Author(s)
  磯部良隆, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
- Journal Title
  
  人工知能学会全国大会論文集
  
  Volume: - Pages: 1E5GS503
- Open Access
[Journal Article] マルチエージェント深層強化学習における好奇心探索の影響2023
- Author(s)
  岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- Journal Title
  
  情報処理学会論文誌「数理モデル化と応用」
  
  Volume: 16 Pages: 80-90
- Peer Reviewed / Open Access
[Journal Article] A Simple Sequential Social Dilemma Game2023
- Author(s)
  Ryoichi Takatsuka, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Kosuke Shima, Nobuhiro Inuzuka
- Journal Title
  
  Proceedings of the 7th IEEE International Conference on Agents
  
  Volume: - Pages: -
- DOI
  10.1109/ICA58824.2023.00011
- Peer Reviewed
[Journal Article] 異種エージェント環境における協調行動の汎化のための状態空間の一般化2023
- Author(s)
  薄佑太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- Journal Title
  
  人工知能学会全国大会論文集
  
  Volume: JSAI2023 Pages: 1F4GS502
- DOI
  10.11517/pjsai.JSAI2023.0_1F4GS502
- Open Access

2023 Fiscal Year Annual Research Report

Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making

Principal Investigator

森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

Research Products

[Journal Article] 獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入2024

Author(s)

Journal Title

[Journal Article] Geometry Friendsにおけるカリキュラム学習を用いた協調行動の獲得2024

Author(s)

Journal Title

[Journal Article] マルチエージェント環境下における強化学習エージェントの評価関数の特定2024

Author(s)

Journal Title

[Journal Article] マルチエージェント深層強化学習における好奇心探索の影響2023

Author(s)

Journal Title

[Journal Article] A Simple Sequential Social Dilemma Game2023

Author(s)

Journal Title

DOI

[Journal Article] 異種エージェント環境における協調行動の汎化のための状態空間の一般化2023

Author(s)

Journal Title

DOI

森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)