2019 年度実績報告書

通信無し強化学習エージェント群による動的環境への追従

研究課題

研究課題/領域番号	17J08724
研究機関	電気通信大学
研究代表者	上野史電気通信大学, 情報理工学研究科, 特別研究員(DC1)
研究期間 (年度)	2017-04-26 – 2020-03-31
キーワード	マルチエージェントシステム / 強化学習 / 動的環境 / 通信なし
研究実績の概要	本年度は3年目のテーマである「実問題における適用」に向けて，1)複数種類の動的変化が複合した環境に対する通信なしマルチエージェント強化学習法の提案，および，2)環境変化が断続的に発生する際の適用方法を提案し，最後に，3)提案手法を一般化し，適用可能な実応用問題を定義した．具体的には，1)に関して，エージェント毎の学習範囲と利用する情報を制限して学習することで，環境形状及びエージェント・ゴール数の変化へ追従する手法を提案し，その有効性を示した．また，2)に関して，1)での提案手法において，学習範囲を制限するタイミング，および利用する情報の窓(どれほど昔の情報まで利用するか)をハイパーパラメータとして設定していたものを，環境に合わせて適応的に設定することで，タイミングが異なる断続的な動的変化に追従可能となるように拡張した．これらの成果により，物流システムでいえば，物資の補給地点や目的地，通行路が変わるだけではなく，物資を運ぶロボットの数や目的が増えたとき，そしてそのタイミングが不明であっても，各ロボットが通信を一切行わずに協調行動の学習が可能となり，実問題に対する適用範囲が大きく広がった．そしてこれらの成果は，国際ジャーナルSN Computer Scienceへ掲載が決定しており，英語論文誌SICE JCMSIに掲載済みである．また，国内学会FIT2019，JAWS2019，そして国際会議OptLearnMAS2020にて発表を行った．最後に，3)に関しては，1)と2)の提案手法について，学習範囲の制限により，各エージェントの学習を2体エージェントの協調で分割可能腕あり，提案手法の性能は十分発揮できることを示し，問題に関しては，提案手法がエージェント同士の衝突を加味した上でも性能を発揮することを実験で示した．これにより，実問題として想定していた倉庫ロボットへの適用が可能であることがわかった．この成果は電気学会論文誌Cに掲載済みである．
現在までの達成度 (段落)	令和元年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和元年度が最終年度であるため、記入しない。

研究成果
(7件)

すべて 2020 2019

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 2件) 学会発表 (4件) (うち国際学会 2件)

[雑誌論文] Theoretical Learning Goal Selection for Non-Communicative Multi-Agent Cooperation2020
- 著者名/発表者名
  Uwano Fumito、Takadama Keiki
- 雑誌名
  
  IEEJ Transactions on Electronics, Information and Systems
  
  巻: 140 ページ: 75～84
- DOI
  https://doi.org/10.1541/ieejeiss.140.75
- 査読あり
[雑誌論文] Reward Value-based Goal Selection for Agents' Cooperative Route Learning without Communication in Reward and Goal Dynamism2020
- 著者名/発表者名
  Uwano Fumito、Takadama Keiki
- 雑誌名
  
  SN Computer Science
  
  巻: 未定ページ: 未定
- DOI
  https://doi.org/10.1007/s42979-020-00191-2
- 査読あり / オープンアクセス
[雑誌論文] Utilizing Observed Information for No-Communication Multi-Agent Reinforcement Learning toward Cooperation in Dynamic Environment2019
- 著者名/発表者名
  UWANO Fumito、TAKADAMA Keiki
- 雑誌名
  
  SICE Journal of Control, Measurement, and System Integration
  
  巻: 12 ページ: 199～208
- DOI
  https://doi.org/10.9746/jcmsi.12.199
- 査読あり / オープンアクセス
[学会発表] Directionality Reinforcement Learning to Operate Multi-Agent System without Communication2020
- 著者名/発表者名
  Fumito Uwano
- 学会等名
  The 11th International Workshop on Optimization and Learning in Multiagent System
- 国際学会
[学会発表] エージェント間通信を伴わず環境状態および報酬の包括的動的変化に追従する理論的マルチエージェント強化学習2019
- 著者名/発表者名
  上野史
- 学会等名
  合同エージェントワークショップ＆シンポジウム 2019
[学会発表] 非通信マルチエージェント強化学習における獲得報酬値の変動を用いたエージェント数の動的変化への追従2019
- 著者名/発表者名
  上野史
- 学会等名
  第18回情報科学技術フォーラム
[学会発表] How to Select Appropriate Craters to Estimate Location Accurately in Comprehensive Situations for SLIM Project2019
- 著者名/発表者名
  Fumito Uwano
- 学会等名
  The 32nd International Symposium on Space Technology and Science
- 国際学会

2019 年度 実績報告書

通信無し強化学習エージェント群による動的環境への追従

研究代表者

上野 史 電気通信大学, 情報理工学研究科, 特別研究員(DC1)

研究成果

[雑誌論文] Theoretical Learning Goal Selection for Non-Communicative Multi-Agent Cooperation2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Reward Value-based Goal Selection for Agents' Cooperative Route Learning without Communication in Reward and Goal Dynamism2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Utilizing Observed Information for No-Communication Multi-Agent Reinforcement Learning toward Cooperation in Dynamic Environment2019

著者名/発表者名

雑誌名

DOI

[学会発表] Directionality Reinforcement Learning to Operate Multi-Agent System without Communication2020

著者名/発表者名

学会等名

[学会発表] エージェント間通信を伴わず環境状態および報酬の包括的動的変化に追従する理論的マルチエージェント強化学習2019

著者名/発表者名

学会等名

[学会発表] 非通信マルチエージェント強化学習における獲得報酬値の変動を用いたエージェント数の動的変化への追従2019

著者名/発表者名

学会等名

[学会発表] How to Select Appropriate Craters to Estimate Location Accurately in Comprehensive Situations for SLIM Project2019

著者名/発表者名

学会等名

2019 年度実績報告書

上野史電気通信大学, 情報理工学研究科, 特別研究員(DC1)