• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Evolution of Reward Appraisal Systems in Environments with Sequential Decision Making

Research Project

Project/Area Number 19K12118
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionNagoya Institute of Technology

Principal Investigator

Moriyama Koichi  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

Project Period (FY) 2019-04-01 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywordsマルチエージェントシステム / 強化学習 / 協調 / 報酬設計 / 内発的動機付け / 進化 / 人工社会 / ゲーム / マルチエージェント強化学習 / 進化シミュレーション / 協調形成
Outline of Research at the Start

計算機シミュレーションにより、仮想個体(エージェント)が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。
本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。

Outline of Final Research Achievements

This work investigated a mechanism in an agent in an environment with others that allows the agent to independently learn cooperative behavior from given rewards. In particular, this work used computer games requiring cooperation of multiple players as the environment where sequential decisions were necessary. In games where self-interested behavior failed to satisfy objectives, this work obtained positive results in proposals that invoke cooperative behavior through intrinsically generated rewards in the agent. Moreover, by proposing and investigating a simple game with the above properties, this work showed that cooperation may occur without the intrinsically generated rewards in such games.

Academic Significance and Societal Importance of the Research Achievements

本研究では,個々が独立に報酬を最大化しようとする利己的な個体間の協力行動の発生について検討した.既存の利他的行動に関する数理的研究では主に進化を議論しているが,個体の学習の影響を考慮したものは少ない.本研究は,主に個体の学習に着目し,それを制御する報酬の設計を進化計算で試みたものである.学習における報酬設計は近年重要な課題となっており,学術的意義は大きい.また,既存の数理的研究では各行動が時間的に独立な場合の議論が多く,本研究のように過去の行動が未来に影響を及ぼす環境を対象としたものは少ない.さらに,今後のこの分野の研究の発展のため,このような環境の簡単な例を示したことは重要である.

Report

(6 results)
  • 2023 Annual Research Report   Final Research Report ( PDF )
  • 2022 Research-status Report
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (21 results)

All 2024 2023 2022 2021 2020 2019

All Journal Article (12 results) (of which Peer Reviewed: 4 results,  Open Access: 10 results) Presentation (9 results)

  • [Journal Article] 獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入2024

    • Author(s)
      稲垣佑竜, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
    • Journal Title

      情報処理学会研究報告

      Volume: 2024-ICS-212 (2) Pages: 1-7

    • Related Report
      2023 Annual Research Report
    • Open Access
  • [Journal Article] Geometry Friendsにおけるカリキュラム学習を用いた協調行動の獲得2024

    • Author(s)
      梶野嘉人, 森山甲一, 島孔介, 松井藤五郎, 武藤敦子, 犬塚信博
    • Journal Title

      情報処理学会研究報告

      Volume: 2024-GI-51 (21) Pages: 1-7

    • Related Report
      2023 Annual Research Report
    • Open Access
  • [Journal Article] マルチエージェント環境下における強化学習エージェントの評価関数の特定2024

    • Author(s)
      磯部良隆, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
    • Journal Title

      人工知能学会全国大会論文集

      Volume: -

    • Related Report
      2023 Annual Research Report
    • Open Access
  • [Journal Article] マルチエージェント深層強化学習における好奇心探索の影響2023

    • Author(s)
      岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」

      Volume: 16 Pages: 80-90

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] A Simple Sequential Social Dilemma Game2023

    • Author(s)
      Ryoichi Takatsuka, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Kosuke Shima, Nobuhiro Inuzuka
    • Journal Title

      Proceedings of the 7th IEEE International Conference on Agents

      Volume: - Pages: 9-14

    • DOI

      10.1109/ica58824.2023.00011

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Generalization of the state space for cooperation in similar situations of a heterogeneous multi-agent environment2023

    • Author(s)
      薄佑太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Journal Title

      Proceedings of the Annual Conference of JSAI

      Volume: JSAI2023 Issue: 0 Pages: 1F4GS502-1F4GS502

    • DOI

      10.11517/pjsai.JSAI2023.0_1F4GS502

    • ISSN
      2758-7347
    • Related Report
      2023 Annual Research Report
    • Open Access
  • [Journal Article] 距離に基づく内発的報酬のためのポテンシャル場生成2023

    • Author(s)
      中田瑛, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Journal Title

      情報処理学会研究報告

      Volume: 2023-ICS-208

    • Related Report
      2022 Research-status Report
    • Open Access
  • [Journal Article] マルチエージェント深層強化学習における好奇心探索の影響2023

    • Author(s)
      岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Journal Title

      情報処理学会研究報告

      Volume: 2023-MPS-142

    • Related Report
      2022 Research-status Report
    • Open Access
  • [Journal Article] Optimization of subjective utility to derive cooperative actions in a prisoner's dilemma environment2022

    • Author(s)
      高塚遼市, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Journal Title

      Proceedings of the Annual Conference of JSAI

      Volume: JSAI2022 Issue: 0 Pages: 1N1GS501-1N1GS501

    • DOI

      10.11517/pjsai.JSAI2022.0_1N1GS501

    • Related Report
      2022 Research-status Report
    • Open Access
  • [Journal Article] Curiosity-Driven Search in a Multiagent Reinforcement Learning Problem2021

    • Author(s)
      岩科亨,森山甲一,松井藤五郎,武藤敦子,犬塚信博
    • Journal Title

      Proceedings of the Annual Conference of JSAI

      Volume: JSAI2021 Issue: 0 Pages: 4G1GS2j02-4G1GS2j02

    • DOI

      10.11517/pjsai.JSAI2021.0_4G1GS2j02

    • NAID

      130008051958

    • Related Report
      2021 Research-status Report
    • Open Access
  • [Journal Article] 深層強化学習における時系列的内部報酬生成器による探索の改善2021

    • Author(s)
      村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」

      Volume: 14 Pages: 1-11

    • NAID

      170000184315

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019

    • Author(s)
      Koichi Moriyama, Yoshiya Kurogi, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
    • Journal Title

      Proceedings of IEEE International Conference on Agents (ICA)

      Volume: - Pages: 50-55

    • DOI

      10.1109/agents.2019.8929206

    • Related Report
      2019 Research-status Report
    • Peer Reviewed
  • [Presentation] 強化学習による交差流歩行者エージェントの行動規則の自動生成とその評価2022

    • Author(s)
      木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      SMASH22 Winter Symposium
    • Related Report
      2021 Research-status Report
  • [Presentation] Open-Loop MCTSの木の再利用における適切な初期値設定2022

    • Author(s)
      横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      SMASH22 Winter Symposium
    • Related Report
      2021 Research-status Report
  • [Presentation] エージェント間の距離がタスク達成に影響する環境下における報酬の制御2021

    • Author(s)
      中田瑛, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Organizer
      SMASH21 Summer Symposium
    • Related Report
      2021 Research-status Report
  • [Presentation] Generating Intrinsic Rewards by Random Recurrent Network Distillation2021

    • Author(s)
      Zefeng Xu, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Nobuhiro Inuzuka
    • Organizer
      情報処理学会 第132回数理モデル化と問題解決研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 強化学習による歩行者シミュレーションにおける行動規則の自動生成2021

    • Author(s)
      小林姫華, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Organizer
      計測自動制御学会 第48回知能システムシンポジウム
    • Related Report
      2020 Research-status Report
  • [Presentation] MCTSの木の再利用における減衰係数の自動調整2020

    • Author(s)
      横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      人工知能学会全国大会(第34回)
    • Related Report
      2020 Research-status Report
  • [Presentation] 強化学習による衝突回避エージェントモデルの自動生成2020

    • Author(s)
      木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      第18回情報学ワークショップ
    • Related Report
      2020 Research-status Report
  • [Presentation] 深層強化学習における時系列的内部報酬生成器による探索の改善2020

    • Author(s)
      村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • Organizer
      情報処理学会 第127回数理モデル化と問題解決研究会
    • Related Report
      2019 Research-status Report
  • [Presentation] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020

    • Author(s)
      百武佳輝, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      情報処理学会 第82回全国大会
    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi