Project/Area Number |
19K12118
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
Moriyama Koichi 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | マルチエージェントシステム / 強化学習 / 協調 / 報酬設計 / 内発的動機付け / 進化 / 人工社会 / ゲーム / マルチエージェント強化学習 / 進化シミュレーション / 協調形成 |
Outline of Research at the Start |
計算機シミュレーションにより、仮想個体(エージェント)が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。 本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。
|
Outline of Final Research Achievements |
This work investigated a mechanism in an agent in an environment with others that allows the agent to independently learn cooperative behavior from given rewards. In particular, this work used computer games requiring cooperation of multiple players as the environment where sequential decisions were necessary. In games where self-interested behavior failed to satisfy objectives, this work obtained positive results in proposals that invoke cooperative behavior through intrinsically generated rewards in the agent. Moreover, by proposing and investigating a simple game with the above properties, this work showed that cooperation may occur without the intrinsically generated rewards in such games.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究では,個々が独立に報酬を最大化しようとする利己的な個体間の協力行動の発生について検討した.既存の利他的行動に関する数理的研究では主に進化を議論しているが,個体の学習の影響を考慮したものは少ない.本研究は,主に個体の学習に着目し,それを制御する報酬の設計を進化計算で試みたものである.学習における報酬設計は近年重要な課題となっており,学術的意義は大きい.また,既存の数理的研究では各行動が時間的に独立な場合の議論が多く,本研究のように過去の行動が未来に影響を及ぼす環境を対象としたものは少ない.さらに,今後のこの分野の研究の発展のため,このような環境の簡単な例を示したことは重要である.
|