2023 Fiscal Year Annual Research Report
Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making
Project/Area Number |
19K12118
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 |
Outline of Annual Research Achievements |
本研究では,計算機シミュレーションにより,行動主体(エージェント)が複数存在する環境における協力行動の発生を議論した.現実に近い連続的な意思決定を要する環境として,複数のエージェントが協力すべきゲーム(以下「連続ゲーム」)を対象とし,個々が意思決定方策を強化学習により獲得する.得られた報酬を各自が評価して学習に反映させるとした時,エージェント間の協力をもたらす評価システムが進化により発生するか否か,およびその要件について考察した. まず,「連続ゲーム」に,単一の意思決定を繰り返す「繰り返しゲーム」の評価システムの進化手法を適用したが,再検討が必要となった.そこで,この評価を表す関数の一般化を行った.結果として「繰り返しゲーム」では協力行動を導く評価システムが得られ,「連続ゲーム」でも特定の環境の制約された状況で同様の結果が得られたが,協力行動を導く一般的な要件までは解明できなかった. 「連続ゲーム」の多くには共有の目的があり,個々の目的と全体目的が対立するジレンマ状況は起きにくい.ジレンマ状況を「連続ゲーム」に拡張した概念に逐次社会的ジレンマ(SSD)がある.研究の今後の進展には扱いやすいSSD環境が必要と考え,SSDの条件を満たす簡単な「連続ゲーム」を考案した. 近年,単一エージェント環境において内部評価を用いた強化学習で行動の獲得を試みる研究が提案された.そこで,それらを「連続ゲーム」の一種である追跡問題に適用して調査した.まず,内部評価により探索行動を促す好奇心探索では,獲物の逃げ道を塞ぐような協調行動が現れた.内発的動機付け強化学習の一研究である遺伝的プログラミングによる評価関数の構成手法では,得られた評価関数で獲物獲得回数の増加が見られた.しかし,協力行動をもたらす内部評価の発生要件の解明には至らなかった.
|