2017 Fiscal Year Annual Research Report
通信無し強化学習エージェント群による動的環境への追従
Project/Area Number |
17J08724
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
上野 史 電気通信大学, 情報理工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2017-04-26 – 2020-03-31
|
Keywords | 強化学習 / マルチエージェントシステム / 動的環境 |
Outline of Annual Research Achievements |
本研究は,マルチエージェント強化学習(Multi-Agent Reinforcement Learning: MARL)の実環境適用範囲の拡大のための基盤技術確立を目指し,3年間で1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の3つのテーマに取り組みます.初年度の平成29年度ではテーマ1に取り組み,主に(1)エージェント数,報酬獲得の状態数が増減する環境,(2)迷路の形状が変化する環境に追従する通信無しの協調行動学習法を提案しました.また,テーマ2,3についても(3)理論的展開に着手し,(4)実問題における適用の準備を始めています.MARLは複数ロボットのように,エージェントと呼ばれる行動の主体が複数集まりそれぞれ協調的に振舞うことで,困難な課題を解決する手法です.一般的に協調的振舞いは状況次第で変化するため,MARLによるエージェントと環境の動的変化への追従は困難ですが,本研究では環境形状変化,エージェントの位置や数,目的の種類や数の変化に対してエージェントが協調行動を学習し,最短ステップでゴールに到達可能な知識の獲得手法の考案に成功しました.そして,MARLの理論構築にはエージェントの全情報が必要ですが,その情報なしに協調行動の学習を理論的に補強し,その適用範囲を拡大させています.加えて,実問題に向けた実ロボットの学習や災害状況などの予測困難なものの予測法を調査,探求し,今後に向けた準備を着々と進めております.課題(1)の成果は英語論文誌JACIIIに掲載され,国際会議PPSN2018へ投稿中である.また,課題(2)の成果は国内学会SSI2017にてポスター発表を行い,現在英語論文誌JCMSIに投稿中である.また,課題(3)の成果は今後AAMAS Workshop 2018へ投稿する予定で,課題(4)の成果は英語論文誌2件(JRM,JCMSI),及び国際会議2件(AAAI Spring Symposium2018,i-SAIRAS2018)の発表に繋がっており,対外的に高い評価を受けています.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
3年間で取り組むテーマである1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の内,平成29年度は主にテーマ1に取り組み,テーマ2,3において方針を立て,研究に着手し始めました. テーマ1についてはまず,迷路問題においてエージェント数,ゴール数の動的変化に追従する協調行動学習法を提案しました.具体的には,競合が起きた際に,自身の最も近いゴールから競合したエージェント数だけ遠くのゴールのみを考慮し,協調行動を学習するように手法を改良しました.次に,スタート位置,ゴール位置,マスが動的変化する際に追従する協調行動学習法の提案のため,直近で得られた情報を最も優先して協調行動の学習を行うように改良しました.これらの改良により,従来手法では全く協調行動を学習出来ない環境である,マスが変化し,エージェントのスタート位置,ゴール位置が変化する迷路問題において確実に学習可能なことを示しました.一方で,テーマ2にある理論的展開については,元ブリストル大学のTim Kovacs准教授と共に議論を交わし,3体における協調行動学習法を理論的に補強することに成功しました.従来3体エージェントの協調行動の学習理論は,自身の振舞いで他方のエージェントを間接的に制御出来ないため,2体エージェントの協調と比較して格段に難しく,この結果は非常に重要で有益です.最後に,テーマ3に向けて,(1)実ロボットにおける学習とその難しさ,(2)災害状況等の予測困難なものに対する予測精度の2点について調査,探求しました.結果として,ステップ等の強化学習の概念が実装出来れば実応用は可能であり,予測困難なものに対する予測精度は,特定の災害地域で車両は通行可能かといったように,予測範囲を絞れば90%近くは予測出来る可能性を示し,実問題適用における重要な知見を得た.以上から,本年度の研究計画は十分達成されたといえます.
|
Strategy for Future Research Activity |
今後は3年間で取り組むテーマである1,動的変化に追従する協調行動学習法,2,協調行動学習の理論的補強,3,実問題への適用の内,主にテーマ2に取り組みます.具体的には,平成29年度に取り組んだ動的変化が複合した環境に追従する協調行動学習法を提案し,その理論的補強を行います.また,3年目の計画を円滑に進めるため,より高度なシミュレーション環境にて検証を行う予定です.動的変化の複合した環境では,各動的変化がタイミングを変えて出現した場合など,現状の手法ではエージェント同士がある程度同期的に動作して学習する前提を置いているため,誤った協調行動を学習することが考えられます.今後はこの問題に対応するため,非同期的に各エージェントが非通信に協調行動を学習する手法を考案する予定です.また,理論的補強に関しては,現在2体エージェントにおける通信なし協調行動学習法を理論的に示し,動的環境においてもその理論が成立する条件を極力崩さない手法を提案しています.そのため,まず理論の成立する前提が崩れていないことを示して,崩れてしまっている場合はそれを補強する理論を構築します.現状の予測として,壁によりエージェントや環境が2個に分かれてしまった場合成立しないものと考えられるため,エージェントのメモリから従来の環境の情報を消すような手法を新たに考案して,従来理論を維持するよう改良を加える予定である.その際,現実問題では予測困難な環境変化も起こりうるため,従来の情報もしばらくは利用できるように徐々に削除するような改良を加え,動的変化への頑健性を高めます.また,高度なシミュレーション環境として,「災害時輸送と物資輸送シミュレータ」(間島隆博,海上技術安全研究所報告特集号,第14巻,第4号)を参考に構築する予定です.その際海上技術安全研究所と議論を交わし,実応用可能なシミュレータの構築を目指します.
|