• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

通信無し強化学習エージェント群による動的環境への追従

Research Project

Project/Area Number 17J08724
Research InstitutionThe University of Electro-Communications

Principal Investigator

上野 史  電気通信大学, 情報理工学研究科, 特別研究員(DC1)

Project Period (FY) 2017-04-26 – 2020-03-31
Keywordsマルチエージェントシステム / 強化学習 / 動的環境 / 通信なし
Outline of Annual Research Achievements

本年度は3年目のテーマである「実問題における適用」に向けて,1)複数種類の動的変化が複合した環境に対する通信なしマルチエージェント強化学習法の提案,および,2)環境変化が断続的に発生する際の適用方法を提案し,最後に,3)提案手法を一般化し,適用可能な実応用問題を定義した.具体的には,1)に関して,エージェント毎の学習範囲と利用する情報を制限して学習することで,環境形状及びエージェント・ゴール数の変化へ追従する手法を提案し,その有効性を示した.また,2)に関して,1)での提案手法において,学習範囲を制限するタイミング,および利用する情報の窓(どれほど昔の情報まで利用するか)をハイパーパラメータとして設定していたものを,環境に合わせて適応的に設定することで,タイミングが異なる断続的な動的変化に追従可能となるように拡張した.これらの成果により,物流システムでいえば,物資の補給地点や目的地,通行路が変わるだけではなく,物資を運ぶロボットの数や目的が増えたとき,そしてそのタイミングが不明であっても,各ロボットが通信を一切行わずに協調行動の学習が可能となり,実問題に対する適用範囲が大きく広がった.そしてこれらの成果は,国際ジャーナルSN Computer Scienceへ掲載が決定しており,英語論文誌SICE JCMSIに掲載済みである.また,国内学会FIT2019,JAWS2019,そして国際会議OptLearnMAS2020にて発表を行った.最後に,3)に関しては,1)と2)の提案手法について,学習範囲の制限により,各エージェントの学習を2体エージェントの協調で分割可能腕あり,提案手法の性能は十分発揮できることを示し,問題に関しては,提案手法がエージェント同士の衝突を加味した上でも性能を発揮することを実験で示した.これにより,実問題として想定していた倉庫ロボットへの適用が可能であることがわかった.この成果は電気学会論文誌Cに掲載済みである.

Research Progress Status

令和元年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和元年度が最終年度であるため、記入しない。

  • Research Products

    (7 results)

All 2020 2019

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 2 results) Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Theoretical Learning Goal Selection for Non-Communicative Multi-Agent Cooperation2020

    • Author(s)
      Uwano Fumito、Takadama Keiki
    • Journal Title

      IEEJ Transactions on Electronics, Information and Systems

      Volume: 140 Pages: 75~84

    • DOI

      https://doi.org/10.1541/ieejeiss.140.75

    • Peer Reviewed
  • [Journal Article] Reward Value-based Goal Selection for Agents' Cooperative Route Learning without Communication in Reward and Goal Dynamism2020

    • Author(s)
      Uwano Fumito、Takadama Keiki
    • Journal Title

      SN Computer Science

      Volume: 未定 Pages: 未定

    • DOI

      https://doi.org/10.1007/s42979-020-00191-2

    • Peer Reviewed / Open Access
  • [Journal Article] Utilizing Observed Information for No-Communication Multi-Agent Reinforcement Learning toward Cooperation in Dynamic Environment2019

    • Author(s)
      UWANO Fumito、TAKADAMA Keiki
    • Journal Title

      SICE Journal of Control, Measurement, and System Integration

      Volume: 12 Pages: 199~208

    • DOI

      https://doi.org/10.9746/jcmsi.12.199

    • Peer Reviewed / Open Access
  • [Presentation] Directionality Reinforcement Learning to Operate Multi-Agent System without Communication2020

    • Author(s)
      Fumito Uwano
    • Organizer
      The 11th International Workshop on Optimization and Learning in Multiagent System
    • Int'l Joint Research
  • [Presentation] エージェント間通信を伴わず環境状態および報酬の包括的動的変化に追従する理論的マルチエージェント強化学習2019

    • Author(s)
      上野史
    • Organizer
      合同エージェントワークショップ&シンポジウム 2019
  • [Presentation] 非通信マルチエージェント強化学習における獲得報酬値の変動を用いたエージェント数の動的変化への追従2019

    • Author(s)
      上野史
    • Organizer
      第18回情報科学技術フォーラム
  • [Presentation] How to Select Appropriate Craters to Estimate Location Accurately in Comprehensive Situations for SLIM Project2019

    • Author(s)
      Fumito Uwano
    • Organizer
      The 32nd International Symposium on Space Technology and Science
    • Int'l Joint Research

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi