• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Analysis of reward appraisal evolution processes of reinforcement learning agents in a multiagent environment

Research Project

Project/Area Number 16K00302
Research InstitutionNagoya Institute of Technology

Principal Investigator

森山 甲一  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

Project Period (FY) 2016-04-01 – 2019-03-31
Keywords強化学習 / 報酬形成 / マルチエージェントシステム / ゲーム理論 / 進化計算
Outline of Annual Research Achievements

本研究では,強化学習を行う複数のエージェントが行動する仮想社会において,学習に用いる報酬が個々のエージェントの持つ評価システム(以下「価値観」と呼ぶ)により修正されるものとし,社会的な行動の必要性が「価値観」を進化させたものと仮定する.その上で,この「価値観」が与えられる報酬に基づいてどのように進化するか,それによりどのような社会が実現するかをシミュレーションと数理的解析で明らかにしようと試みた.
まず,シミュレーション実験による観察とデータの収集を行った.社会のモデルとしてゲーム理論,特に2人2行動ゲームで有名な囚人のジレンマゲームを対象とした.「価値観」を報酬の関数として表現し,プログラムを設計,実装した.それから,計算機を用いてシミュレーションを数多く走らせることにより,どのような「価値観」が出現するかを観察した.その結果,本研究の対象とする囚人のジレンマゲームにおいては,「価値観」の進化の結果,相互に協調する理想的な社会がもたらされるという知見を得た.さらに,「価値観」を表現する空間上で進化がどのように進んで相互の協調に至るのか,数理的な検証を行った.まず,「価値観」を表す関数のパラメータ空間を小さな超立方体空間に分け,各小空間内で短期的な進化がどの方向に向かうかをシミュレーション実験で調査した.さらに,その小空間の全体における位置から,その位置におけるパラメータの性質を表す式を考案し,全体のパラメータ空間をその式に基づいて4分割した.それから,この4分割した空間のそれぞれについて,この式を用いてシミュレーション実験結果に現れる進化の方向を大まかに説明することが出来ることを示した.
これらの研究に付随して,囚人のジレンマゲームにおけるマルチエージェント強化学習の性質の調査,計算機シミュレーションの高速化についての検討,強化学習手法自体の高速化の検討を行った.

  • Research Products

    (4 results)

All 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results)

  • [Journal Article] Evolution Direction of Reward Appraisal in Reinforcement Learning Agents2018

    • Author(s)
      Masaya Miyawaki, Koichi Moriyama, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
    • Journal Title

      Proceedings of the 12th KES International Conference on Agent and Multi-agent Systems: Technologies and Applications

      Volume: - Pages: 13~22

    • DOI

      10.1007/978-3-319-92031-3_2

    • Peer Reviewed
  • [Journal Article] Accelerating Deep Q Network by Weighting Experiences2018

    • Author(s)
      Kazuhiro Murakami, Koichi Moriyama, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
    • Journal Title

      Proceedings of the 25th International Conference on Neural Information Processing

      Volume: 1 Pages: 204~213

    • DOI

      10.1007/978-3-030-04167-0_19

    • Peer Reviewed
  • [Presentation] GPGPUを用いた強化学習エージェントの並列進化シミュレーション2018

    • Author(s)
      千賀喜貴, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      人工知能学会全国大会(第32回)
  • [Presentation] 経験データ重み付けによるDeep Q Networkの高速化2018

    • Author(s)
      村上知優, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
    • Organizer
      人工知能学会全国大会(第32回)

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi