連続の意思決定を要する環境における報酬評価システムの進化

研究課題

研究課題/領域番号	19K12118
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	名古屋工業大学
研究代表者	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
研究期間 (年度)	2019-04-01 – 2024-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 / マルチエージェント強化学習 / 報酬設計 / 進化シミュレーション / 協調形成
研究開始時の研究の概要	計算機シミュレーションにより、仮想個体（エージェント）が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。
研究実績の概要	本研究では，計算機シミュレーションにより，行動主体（エージェント）が複数存在する環境における協力行動の発生過程を議論する．現実に近い連続的な意思決定を必要とする環境として，複数のエージェントが「協力すべき」ゲームを対象とし，個々が意思決定方策を強化学習により獲得する．意思決定の結果を各自が自己評価して学習に反映させるものとした時，エージェント間の協力をもたらす自己評価システムが進化により発生するか否か，およびその発生のための要件について考察する． 2022年度は，2021年度までに得られた知見をさらに深めることが行われた．内部報酬（自己評価）を利用した好奇心探索を，追跡問題と呼ばれるマルチエージェント環境へ適用することで，強化学習のみと比べてより多くの協調行動が得られることが示されていたが，その要因を考察した．その結果，強化学習のみでは個々が獲物を追いかけることで，互いに環境内で衝突してしまい，結果として獲物を取り逃がしていたが，好奇心探索を用いた場合には，一部のエージェントが回り込むなどの動作を学習することで，互いの衝突を減らすことが見られた．これは，自己評価によって探索を促進することで，結果として協力行動が得られたと解釈できる．また，自己評価システムの進化に関する研究については以下のとおりである．ゲーム空間上のエージェントの位置関係に基づくものについて，新たに人工ポテンシャル場の考えを導入し，そのポテンシャル関数を進化計算で調整することにより，ゲームにおいてより多くの得点を獲得することに成功した．一方で，2人同時手番ゲームで有効性が確認された，より一般的な自己評価システムの進化の研究では，連続的な意思決定を要するゲームへ適用したところ，残念ながらまだ満足する結果が得られておらず，さらなる検討が必要である．
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由 2022年度になってようやく新型コロナウイルス感染症の影響が軽減されてきたが，これまでの進捗の遅れを取り戻すまでには至っていない．そこで，本研究課題の再延長を申請し，認められた．所属機関の活動も年度後半からは対面が原則となり，意思疎通や進捗管理の問題も徐々に改善しつつある．それに伴い成果も徐々に出てきているが，上記研究実績の概要のとおり，一般的な自己評価システムの実現については，まだ満足する結果が得られていないのが現状である．
今後の研究の推進方策	まず，これまでに得られた成果についての対外発表を進めていく予定である．国際会議や論文誌など査読付きのものへの投稿を積極的に行いたいと考えている．また，2022年度に購入した計算機を活用して研究を進めていく．特に，まだ満足する結果が得られていない，一般的な自己評価システムの実現について注力する予定である．

報告書

(4件)

研究成果

(15件)

すべて 2023 2022 2021 2020 2019

すべて雑誌論文 (6件) (うちオープンアクセス 5件、査読あり 2件) 学会発表 (9件)

[雑誌論文] 距離に基づく内発的報酬のためのポテンシャル場生成2023
- 著者名/発表者名
  中田瑛, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 雑誌名
  
  情報処理学会研究報告
  
  巻: 2023-ICS-208
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] マルチエージェント深層強化学習における好奇心探索の影響2023
- 著者名/発表者名
  岩科亨, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- 雑誌名
  
  情報処理学会研究報告
  
  巻: 2023-MPS-142
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] 囚人のジレンマ環境における協調行動を導く主観的効用の最適化2022
- 著者名/発表者名
  高塚遼市, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 雑誌名
  
  人工知能学会全国大会論文集
  
  巻: JSAI2022 号: 0 ページ: 1N1GS501-1N1GS501
- DOI
  10.11517/pjsai.JSAI2022.0_1N1GS501
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[雑誌論文] マルチエージェント強化学習問題への好奇心探索の適用2021
- 著者名/発表者名
  岩科亨，森山甲一，松井藤五郎，武藤敦子，犬塚信博
- 雑誌名
  
  人工知能学会全国大会論文集
  
  巻: JSAI2021 号: 0 ページ: 4G1GS2j02-4G1GS2j02
- DOI
  10.11517/pjsai.JSAI2021.0_4G1GS2j02
- NAID
  130008051958
- 関連する報告書
  2021 実施状況報告書
- オープンアクセス
[雑誌論文] 深層強化学習における時系列的内部報酬生成器による探索の改善2021
- 著者名/発表者名
  村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- 雑誌名
  
  情報処理学会論文誌「数理モデル化と応用」
  
  巻: 14 ページ: 1-11
- NAID
  170000184315
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019
- 著者名/発表者名
  Koichi Moriyama, Yoshiya Kurogi, Atsuko Mutoh, Tohgoroh Matsui, and Nobuhiro Inuzuka
- 雑誌名
  
  Proceedings of IEEE International Conference on Agents (ICA)
  
  巻: - ページ: 50-55
- DOI
  10.1109/agents.2019.8929206
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[学会発表] 強化学習による交差流歩行者エージェントの行動規則の自動生成とその評価2022
- 著者名/発表者名
  木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 学会等名
  SMASH22 Winter Symposium
- 関連する報告書
  2021 実施状況報告書
[学会発表] Open-Loop MCTSの木の再利用における適切な初期値設定2022
- 著者名/発表者名
  横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 学会等名
  SMASH22 Winter Symposium
- 関連する報告書
  2021 実施状況報告書
[学会発表] エージェント間の距離がタスク達成に影響する環境下における報酬の制御2021
- 著者名/発表者名
  中田瑛, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- 学会等名
  SMASH21 Summer Symposium
- 関連する報告書
  2021 実施状況報告書
[学会発表] Generating Intrinsic Rewards by Random Recurrent Network Distillation2021
- 著者名/発表者名
  Zefeng Xu, Koichi Moriyama, Tohgoroh Matsui, Atsuko Mutoh, Nobuhiro Inuzuka
- 学会等名
  情報処理学会第132回数理モデル化と問題解決研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 強化学習による歩行者シミュレーションにおける行動規則の自動生成2021
- 著者名/発表者名
  小林姫華, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- 学会等名
  計測自動制御学会第48回知能システムシンポジウム
- 関連する報告書
  2020 実施状況報告書
[学会発表] MCTSの木の再利用における減衰係数の自動調整2020
- 著者名/発表者名
  横川滉太, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 学会等名
  人工知能学会全国大会（第34回）
- 関連する報告書
  2020 実施状況報告書
[学会発表] 強化学習による衝突回避エージェントモデルの自動生成2020
- 著者名/発表者名
  木村哲, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 学会等名
  第18回情報学ワークショップ
- 関連する報告書
  2020 実施状況報告書
[学会発表] 深層強化学習における時系列的内部報酬生成器による探索の改善2020
- 著者名/発表者名
  村上知優, 森山甲一, 松井藤五郎, 武藤敦子, 犬塚信博
- 学会等名
  情報処理学会第127回数理モデル化と問題解決研究会
- 関連する報告書
  2019 実施状況報告書
[学会発表] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020
- 著者名/発表者名
  百武佳輝, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博
- 学会等名
  情報処理学会第82回全国大会
- 関連する報告書
  2019 実施状況報告書

連続の意思決定を要する環境における報酬評価システムの進化

研究代表者

森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 距離に基づく内発的報酬のためのポテンシャル場生成2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] マルチエージェント深層強化学習における好奇心探索の影響2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 囚人のジレンマ環境における協調行動を導く主観的効用の最適化2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] マルチエージェント強化学習問題への好奇心探索の適用2021

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] 深層強化学習における時系列的内部報酬生成器による探索の改善2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Running Reinforcement Learning Agents on GPU for Many Simulations of Two-Person Simultaneous Games2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 強化学習による交差流歩行者エージェントの行動規則の自動生成とその評価2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Open-Loop MCTSの木の再利用における適切な初期値設定2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] エージェント間の距離がタスク達成に影響する環境下における報酬の制御2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Generating Intrinsic Rewards by Random Recurrent Network Distillation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習による歩行者シミュレーションにおける行動規則の自動生成2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] MCTSの木の再利用における減衰係数の自動調整2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習による衝突回避エージェントモデルの自動生成2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層強化学習における時系列的内部報酬生成器による探索の改善2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数2020

著者名/発表者名

学会等名

関連する報告書

森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)