• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

連続の意思決定を要する環境における報酬評価システムの進化

研究課題

研究課題/領域番号 19K12118
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分61030:知能情報学関連
研究機関名古屋工業大学

研究代表者

森山 甲一  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

研究期間 (年度) 2019-04-01 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワードマルチエージェントシステム / 強化学習 / 協調 / 報酬設計 / 内発的動機付け / 進化 / 人工社会 / ゲーム / マルチエージェント強化学習 / 進化シミュレーション / 協調形成
研究開始時の研究の概要

計算機シミュレーションにより、仮想個体(エージェント)が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。
本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。

研究成果の概要

本研究は,環境中で行動する複数の主体(エージェント)が,行動の結果として環境から得られる報酬をもとに独立に行動を学習する環境において,協力的な行動を学習する仕組みについて検討した.特に,現実と同様に過去の決定が未来に影響を及ぼす環境として,複数のエージェントの協力が必要なゲームを対象として研究を行った.主に,利己的な行動では目的が達成されないゲームにおいて,エージェントが内部で報酬を生成して協力的な行動を導く手法を検討し一定の成果を得た.さらに,そのような性質を持つ簡単な環境を考案して調査したところ,内部報酬によらない協力行動の学習の可能性が明らかになった.

研究成果の学術的意義や社会的意義

本研究では,個々が独立に報酬を最大化しようとする利己的な個体間の協力行動の発生について検討した.既存の利他的行動に関する数理的研究では主に進化を議論しているが,個体の学習の影響を考慮したものは少ない.本研究は,主に個体の学習に着目し,それを制御する報酬の設計を進化計算で試みたものである.学習における報酬設計は近年重要な課題となっており,学術的意義は大きい.また,既存の数理的研究では各行動が時間的に独立な場合の議論が多く,本研究のように過去の行動が未来に影響を及ぼす環境を対象としたものは少ない.さらに,今後のこの分野の研究の発展のため,このような環境の簡単な例を示したことは重要である.

報告書

(6件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 2019 実施状況報告書
  • 研究成果

    (21件)

すべて 2024 2023 2022 2021 2020 2019

すべて 雑誌論文 (12件) (うち査読あり 4件、 オープンアクセス 10件) 学会発表 (9件)

  • [雑誌論文] 獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入2024

    • 著者名/発表者名
      稲垣佑竜, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
    • 雑誌名

      情報処理学会研究報告

      巻: 2024-ICS-212 (2) ページ: 1-7

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] Geometry Friendsにおけるカリキュラム学習を用いた協調行動の獲得2024

    • 著者名/発表者名
      梶野嘉人, 森山甲一, 島孔介, 松井藤五郎, 武藤敦子, 犬塚信博
    • 雑誌名

      情報処理学会研究報告

      巻: 2024-GI-51 (21) ページ: 1-7

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] マルチエージェント環境下における強化学習エージェントの評価関数の特定2024

    • 著者名/発表者名
      磯部良隆, 森山甲一, 武藤敦子, 島孔介, 松井藤五郎, 犬塚信博
    • 雑誌名

      人工知能学会全国大会論文集

      巻: -

    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] マルチエージェント深層強化学習における好奇心探索の影響2023

    • 著者名/発表者名
      岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 雑誌名

      情報処理学会論文誌「数理モデル化と応用」

      巻: 16 ページ: 80-90

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] A Simple Sequential Social Dilemma Game2023

    • 著者名/発表者名
      Ryoichi Takatsuka, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Kosuke Shima, Nobuhiro Inuzuka
    • 雑誌名

      Proceedings of the 7th IEEE International Conference on Agents

      巻: - ページ: 9-14

    • DOI

      10.1109/ica58824.2023.00011

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] 異種エージェント環境における協調行動の汎化のための状態空間の一般化2023

    • 著者名/発表者名
      薄佑太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 雑誌名

      人工知能学会全国大会論文集

      巻: JSAI2023 号: 0 ページ: 1F4GS502-1F4GS502

    • DOI

      10.11517/pjsai.JSAI2023.0_1F4GS502

    • ISSN
      2758-7347
    • 関連する報告書
      2023 実績報告書
    • オープンアクセス
  • [雑誌論文] 距離に基づく内発的報酬のためのポテンシャル場生成2023

    • 著者名/発表者名
      中田瑛, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 雑誌名

      情報処理学会研究報告

      巻: 2023-ICS-208

    • 関連する報告書
      2022 実施状況報告書
    • オープンアクセス
  • [雑誌論文] マルチエージェント深層強化学習における好奇心探索の影響2023

    • 著者名/発表者名
      岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 雑誌名

      情報処理学会研究報告

      巻: 2023-MPS-142

    • 関連する報告書
      2022 実施状況報告書
    • オープンアクセス
  • [雑誌論文] 囚人のジレンマ環境における協調行動を導く主観的効用の最適化2022

    • 著者名/発表者名
      高塚遼市, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 雑誌名

      人工知能学会全国大会論文集

      巻: JSAI2022 号: 0 ページ: 1N1GS501-1N1GS501

    • DOI

      10.11517/pjsai.JSAI2022.0_1N1GS501

    • 関連する報告書
      2022 実施状況報告書
    • オープンアクセス
  • [雑誌論文] マルチエージェント強化学習問題への好奇心探索の適用2021

    • 著者名/発表者名
      岩科亨,森山甲一,松井藤五郎,武藤敦子,犬塚信博
    • 雑誌名

      人工知能学会全国大会論文集

      巻: JSAI2021 号: 0 ページ: 4G1GS2j02-4G1GS2j02

    • DOI

      10.11517/pjsai.JSAI2021.0_4G1GS2j02

    • NAID

      130008051958

    • 関連する報告書
      2021 実施状況報告書
    • オープンアクセス
  • [雑誌論文] 深層強化学習における時系列的内部報酬生成器による探索の改善2021

    • 著者名/発表者名
      村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 雑誌名

      情報処理学会論文誌「数理モデル化と応用」

      巻: 14 ページ: 1-11

    • NAID

      170000184315

    • 関連する報告書
      2020 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019

    • 著者名/発表者名
      Koichi Moriyama, Yoshiya Kurogi, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
    • 雑誌名

      Proceedings of IEEE International Conference on Agents (ICA)

      巻: - ページ: 50-55

    • DOI

      10.1109/agents.2019.8929206

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり
  • [学会発表] 強化学習による交差流歩行者エージェントの行動規則の自動生成とその評価2022

    • 著者名/発表者名
      木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 学会等名
      SMASH22 Winter Symposium
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] Open-Loop MCTSの木の再利用における適切な初期値設定2022

    • 著者名/発表者名
      横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 学会等名
      SMASH22 Winter Symposium
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] エージェント間の距離がタスク達成に影響する環境下における報酬の制御2021

    • 著者名/発表者名
      中田瑛, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 学会等名
      SMASH21 Summer Symposium
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] Generating Intrinsic Rewards by Random Recurrent Network Distillation2021

    • 著者名/発表者名
      Zefeng Xu, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Nobuhiro Inuzuka
    • 学会等名
      情報処理学会 第132回数理モデル化と問題解決研究発表会
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 強化学習による歩行者シミュレーションにおける行動規則の自動生成2021

    • 著者名/発表者名
      小林姫華, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 学会等名
      計測自動制御学会 第48回知能システムシンポジウム
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] MCTSの木の再利用における減衰係数の自動調整2020

    • 著者名/発表者名
      横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 学会等名
      人工知能学会全国大会(第34回)
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 強化学習による衝突回避エージェントモデルの自動生成2020

    • 著者名/発表者名
      木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 学会等名
      第18回情報学ワークショップ
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 深層強化学習における時系列的内部報酬生成器による探索の改善2020

    • 著者名/発表者名
      村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
    • 学会等名
      情報処理学会 第127回数理モデル化と問題解決研究会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020

    • 著者名/発表者名
      百武佳輝, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • 学会等名
      情報処理学会 第82回全国大会
    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-04-18   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi