• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

通信無し強化学習エージェント群による動的環境への追従

研究課題

研究課題/領域番号 17J08724
研究機関電気通信大学

研究代表者

上野 史  電気通信大学, 情報理工学研究科, 特別研究員(DC1)

研究期間 (年度) 2017-04-26 – 2020-03-31
キーワード強化学習 / マルチエージェントシステム / 動的環境
研究実績の概要

本研究は,マルチエージェント強化学習(Multi-Agent Reinforcement Learning: MARL)の実環境適用範囲の拡大のための基盤技術確立を目指し,3年間で1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の3つのテーマに取り組みます.初年度の平成29年度ではテーマ1に取り組み,主に(1)エージェント数,報酬獲得の状態数が増減する環境,(2)迷路の形状が変化する環境に追従する通信無しの協調行動学習法を提案しました.また,テーマ2,3についても(3)理論的展開に着手し,(4)実問題における適用の準備を始めています.MARLは複数ロボットのように,エージェントと呼ばれる行動の主体が複数集まりそれぞれ協調的に振舞うことで,困難な課題を解決する手法です.一般的に協調的振舞いは状況次第で変化するため,MARLによるエージェントと環境の動的変化への追従は困難ですが,本研究では環境形状変化,エージェントの位置や数,目的の種類や数の変化に対してエージェントが協調行動を学習し,最短ステップでゴールに到達可能な知識の獲得手法の考案に成功しました.そして,MARLの理論構築にはエージェントの全情報が必要ですが,その情報なしに協調行動の学習を理論的に補強し,その適用範囲を拡大させています.加えて,実問題に向けた実ロボットの学習や災害状況などの予測困難なものの予測法を調査,探求し,今後に向けた準備を着々と進めております.課題(1)の成果は英語論文誌JACIIIに掲載され,国際会議PPSN2018へ投稿中である.また,課題(2)の成果は国内学会SSI2017にてポスター発表を行い,現在英語論文誌JCMSIに投稿中である.また,課題(3)の成果は今後AAMAS Workshop 2018へ投稿する予定で,課題(4)の成果は英語論文誌2件(JRM,JCMSI),及び国際会議2件(AAAI Spring Symposium2018,i-SAIRAS2018)の発表に繋がっており,対外的に高い評価を受けています.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

3年間で取り組むテーマである1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の内,平成29年度は主にテーマ1に取り組み,テーマ2,3において方針を立て,研究に着手し始めました.
テーマ1についてはまず,迷路問題においてエージェント数,ゴール数の動的変化に追従する協調行動学習法を提案しました.具体的には,競合が起きた際に,自身の最も近いゴールから競合したエージェント数だけ遠くのゴールのみを考慮し,協調行動を学習するように手法を改良しました.次に,スタート位置,ゴール位置,マスが動的変化する際に追従する協調行動学習法の提案のため,直近で得られた情報を最も優先して協調行動の学習を行うように改良しました.これらの改良により,従来手法では全く協調行動を学習出来ない環境である,マスが変化し,エージェントのスタート位置,ゴール位置が変化する迷路問題において確実に学習可能なことを示しました.一方で,テーマ2にある理論的展開については,元ブリストル大学のTim Kovacs准教授と共に議論を交わし,3体における協調行動学習法を理論的に補強することに成功しました.従来3体エージェントの協調行動の学習理論は,自身の振舞いで他方のエージェントを間接的に制御出来ないため,2体エージェントの協調と比較して格段に難しく,この結果は非常に重要で有益です.最後に,テーマ3に向けて,(1)実ロボットにおける学習とその難しさ,(2)災害状況等の予測困難なものに対する予測精度の2点について調査,探求しました.結果として,ステップ等の強化学習の概念が実装出来れば実応用は可能であり,予測困難なものに対する予測精度は,特定の災害地域で車両は通行可能かといったように,予測範囲を絞れば90%近くは予測出来る可能性を示し,実問題適用における重要な知見を得た.以上から,本年度の研究計画は十分達成されたといえます.

今後の研究の推進方策

今後は3年間で取り組むテーマである1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の内,主にテーマ2に取り組みます.具体的には,平成29年度に取り組んだ動的変化が複合した環境に追従する協調行動学習法を提案し,その理論的補強を行います.また,3年目の計画を円滑に進めるため,より高度なシミュレーション環境にて検証を行う予定です.動的変化の複合した環境では,各動的変化がタイミングを変えて出現した場合など,現状の手法ではエージェント同士がある程度同期的に動作して学習する前提を置いているため,誤った協調行動を学習することが考えられます.今後はこの問題に対応するため,非同期的に各エージェントが非通信に協調行動を学習する手法を考案する予定です.また,理論的補強に関しては,現在2体エージェントにおける通信なし協調行動学習法を理論的に示し,動的環境においてもその理論が成立する条件を極力崩さない手法を提案しています.そのため,まず理論の成立する前提が崩れていないことを示して,崩れてしまっている場合はそれを補強する理論を構築します.現状の予測として,壁によりエージェントや環境が2個に分かれてしまった場合成立しないものと考えられるため,エージェントのメモリから従来の環境の情報を消すような手法を新たに考案して,従来理論を維持するよう改良を加える予定である.その際,現実問題では予測困難な環境変化も起こりうるため,従来の情報もしばらくは利用できるように徐々に削除するような改良を加え,動的変化への頑健性を高めます.また,高度なシミュレーション環境として,「災害時輸送と物資輸送シミュレータ」(間島隆博,海上技術安全研究所報告特集号,第14巻,第4号)を参考に構築する予定です.その際海上技術安全研究所と議論を交わし,実応用可能なシミュレータの構築を目指します.

  • 研究成果

    (20件)

すべて 2018 2017

すべて 雑誌論文 (6件) (うち査読あり 6件、 オープンアクセス 6件) 学会発表 (14件) (うち国際学会 7件)

  • [雑誌論文] Weighted Opinion Sharing Model for Cutting Link and Changing Information among Agents as Dynamic Environment2018

    • 著者名/発表者名
      Fumito Uwano、Rei Saito、Keiki Takadama
    • 雑誌名

      SICE Journal of Control, Measurement, and System Integration

      巻: 11 ページ: 未定

    • 査読あり / オープンアクセス
  • [雑誌論文] Sleep Stage Estimation Comparing Own Past Heartrate or Others' Heartrate2018

    • 著者名/発表者名
      Yusuke Tajima、Fumito Uwano、Akinori Murata、Tomohiro Harada、Keiki Takadama
    • 雑誌名

      SICE Journal of Control, Measurement, and System Integration

      巻: 11 ページ: 32~39

    • DOI

      10.9746/jcmsi.11.32

    • 査読あり / オープンアクセス
  • [雑誌論文] 相似な三角形に基づくクレータマッチングによるSLIM探査機の自己位置推定とその精度向上2018

    • 著者名/発表者名
      石井 晴之、福田 盛介、澤井 秀次郎、坂井 真一郎、村田 暁紀、上野 史、辰巳 嵩豊、梅内 祐太、高玉 圭樹、原田 智広、鎌田 弘之、石田 貴行
    • 雑誌名

      航空宇宙技術

      巻: 17 ページ: 69~78

    • DOI

      10.2322/astj.JSASS-D-17-00011

    • 査読あり / オープンアクセス
  • [雑誌論文] Comparison Between Reinforcement Learning Methods with Different Goal Selections in Multi-Agent Cooperation2017

    • 著者名/発表者名
      Uwano Fumito、Takadama Keiki
    • 雑誌名

      Journal of Advanced Computational Intelligence and Intelligent Informatics

      巻: 21 ページ: 917~929

    • DOI

      10.20965/jaciii.2017.p0917

    • 査読あり / オープンアクセス
  • [雑誌論文] Recovery System Based on Exploration-Biased Genetic Algorithm for Stuck Rover in Planetary Exploration2017

    • 著者名/発表者名
      Uwano Fumito、Tajima Yusuke、Murata Akinori、Takadama Keiki
    • 雑誌名

      Journal of Robotics and Mechatronics

      巻: 29 ページ: 877~886

    • DOI

      10.20965/jrm.2017.p0877

    • 査読あり / オープンアクセス
  • [雑誌論文] Supporting the Exploration of the Learning Goals for a Continuous Learner Toward Creative Learning2017

    • 著者名/発表者名
      Okudo Takato、Yamaguchi Tomohiro、Murata Akinori、Tatsumi Takato、Uwano Fumito、Takadama Keiki
    • 雑誌名

      Journal of Advanced Computational Intelligence and Intelligent Informatics

      巻: 21 ページ: 907~916

    • DOI

      10.20965/jaciii.2017.p0907

    • 査読あり / オープンアクセス
  • [学会発表] Theoretical Analysis of Triangle Matching Method Based on Craters for Spacecraft Localization2018

    • 著者名/発表者名
      Fumito Uwano
    • 学会等名
      International Symposium on Artificial Intelligence, Robotics and Automation in Space (i-SAIRAS 2018)
    • 国際学会
  • [学会発表] Ensemble Heart Rate Extraction Method for Biological Data from Pressure Sensor Sensor2018

    • 著者名/発表者名
      Fumito Uwano
    • 学会等名
      AAAI Spring Symposium 2018
    • 国際学会
  • [学会発表] Multiple Swarm Intelligence Methods based on Multiple Population with Sharing Best Solution for Drastic Environmental Change2018

    • 著者名/発表者名
      Yuta Umenai
    • 学会等名
      Genetic and Evolutionary Computation Conference (GECCO 2018)
    • 国際学会
  • [学会発表] How to Detect Essential Craters in Camera Shot Image to Increase the Number of Spacecraft Location Estimation while Improving its Accuracy?2018

    • 著者名/発表者名
      Haruyuki Ishii
    • 学会等名
      International Symposium on Artificial Intelligence, Robotics and Automation in Space (i-SAIRAS 2018)
    • 国際学会
  • [学会発表] Improving Sleep Stage Estimation Accuracy by Circadian Rhythm Extracted from a Low Frequency Component of Heart Rate2018

    • 著者名/発表者名
      Akari Tobaru
    • 学会等名
      AAAI Spring Symposium 2018
    • 国際学会
  • [学会発表] Correcting Wrongly Determined Opinions of Agents in Opinion Sharing Model2018

    • 著者名/発表者名
      Eiki Kitajima
    • 学会等名
      International Conference on Human-computer Interaction (HCII 2018)
    • 国際学会
  • [学会発表] 負の報酬生成による環境変化に適応可能な逆強化学習2018

    • 著者名/発表者名
      Satoshi Hasegawa
    • 学会等名
      第45回知能システムシンポジウム
  • [学会発表] 知識の忘却に基づく迷路形状の変化に追従する非通信マルチエージェント強化学習2017

    • 著者名/発表者名
      上野 史
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会 2017
  • [学会発表] Strategies to Improve Cuckoo Search Toward Adapting Randomly Changing Environment2017

    • 著者名/発表者名
      Yuta Umenai
    • 学会等名
      International Conference of Swarm Intelligence (ICSI 2017)
    • 国際学会
  • [学会発表] 動的環境適応に向けた粒子群最適化とカッコウ探索の協働のための情報共有方法の検討2017

    • 著者名/発表者名
      梅内祐太
    • 学会等名
      進化計算シンポジウム 2017
  • [学会発表] 深層学習による次元圧縮ルールの学習分類子システムにおける初期ルールとしての可能性2017

    • 著者名/発表者名
      松本和馬
    • 学会等名
      進化計算シンポジウム 2017
  • [学会発表] SLIM探査機の高度や姿勢の傾きによるクレータ検出位置ずれに対応する自己位置推定法2017

    • 著者名/発表者名
      石井晴之
    • 学会等名
      第61回宇宙科学技術連合講演会
  • [学会発表] Searching Multiple Local Optimal Solutions in Multimodal Function by Bat Algorithm based on Novelty Search2017

    • 著者名/発表者名
      Takuya Iwase
    • 学会等名
      進化計算シンポジウム 2017
  • [学会発表] 複数解探索を考慮した分散型Bat Algorithm2017

    • 著者名/発表者名
      岩瀬拓哉
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会 2017

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi