2023 年度研究成果報告書

連続の意思決定を要する環境における報酬評価システムの進化

研究課題

PDF

研究課題/領域番号	19K12118
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	名古屋工業大学
研究代表者	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
研究期間 (年度)	2019-04-01 – 2024-03-31
キーワード	マルチエージェントシステム / 強化学習 / 協調 / 報酬設計 / 内発的動機付け / 進化 / 人工社会 / ゲーム
研究成果の概要	本研究は，環境中で行動する複数の主体（エージェント）が，行動の結果として環境から得られる報酬をもとに独立に行動を学習する環境において，協力的な行動を学習する仕組みについて検討した．特に，現実と同様に過去の決定が未来に影響を及ぼす環境として，複数のエージェントの協力が必要なゲームを対象として研究を行った．主に，利己的な行動では目的が達成されないゲームにおいて，エージェントが内部で報酬を生成して協力的な行動を導く手法を検討し一定の成果を得た．さらに，そのような性質を持つ簡単な環境を考案して調査したところ，内部報酬によらない協力行動の学習の可能性が明らかになった．
自由記述の分野	知能情報学
研究成果の学術的意義や社会的意義	本研究では，個々が独立に報酬を最大化しようとする利己的な個体間の協力行動の発生について検討した．既存の利他的行動に関する数理的研究では主に進化を議論しているが，個体の学習の影響を考慮したものは少ない．本研究は，主に個体の学習に着目し，それを制御する報酬の設計を進化計算で試みたものである．学習における報酬設計は近年重要な課題となっており，学術的意義は大きい．また，既存の数理的研究では各行動が時間的に独立な場合の議論が多く，本研究のように過去の行動が未来に影響を及ぼす環境を対象としたものは少ない．さらに，今後のこの分野の研究の発展のため，このような環境の簡単な例を示したことは重要である．