研究課題
本研究では,強化学習を行う複数のエージェントが行動する仮想社会において,学習に用いる報酬が個々のエージェントの持つ評価システム(以下「価値観」と呼ぶ)により修正されるものとし,社会的な行動の必要性が「価値観」を進化させたものと仮定する.その上で,この「価値観」が与えられる報酬に基づいてどのように進化するか,それによりどのような社会が実現するかをシミュレーションと数理的解析で明らかにしようと試みた.まず,シミュレーション実験による観察とデータの収集を行った.社会のモデルとしてゲーム理論,特に2人2行動ゲームで有名な囚人のジレンマゲームを対象とした.「価値観」を報酬の関数として表現し,プログラムを設計,実装した.それから,計算機を用いてシミュレーションを数多く走らせることにより,どのような「価値観」が出現するかを観察した.その結果,本研究の対象とする囚人のジレンマゲームにおいては,「価値観」の進化の結果,相互に協調する理想的な社会がもたらされるという知見を得た.さらに,「価値観」を表現する空間上で進化がどのように進んで相互の協調に至るのか,数理的な検証を行った.まず,「価値観」を表す関数のパラメータ空間を小さな超立方体空間に分け,各小空間内で短期的な進化がどの方向に向かうかをシミュレーション実験で調査した.さらに,その小空間の全体における位置から,その位置におけるパラメータの性質を表す式を考案し,全体のパラメータ空間をその式に基づいて4分割した.それから,この4分割した空間のそれぞれについて,この式を用いてシミュレーション実験結果に現れる進化の方向を大まかに説明することが出来ることを示した.これらの研究に付随して,囚人のジレンマゲームにおけるマルチエージェント強化学習の性質の調査,計算機シミュレーションの高速化についての検討,強化学習手法自体の高速化の検討を行った.
すべて 2018
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件)
Proceedings of the 12th KES International Conference on Agent and Multi-agent Systems: Technologies and Applications
巻: - ページ: 13~22
10.1007/978-3-319-92031-3_2
Proceedings of the 25th International Conference on Neural Information Processing
巻: 1 ページ: 204~213
10.1007/978-3-030-04167-0_19