Project/Area Number |
17J08724
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Intelligent informatics
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
上野 史 電気通信大学, 情報理工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2017-04-26 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥2,500,000 (Direct Cost: ¥2,500,000)
Fiscal Year 2019: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | マルチエージェントシステム / 強化学習 / 動的環境 / 通信なし / 動的変化 / 報酬 |
Outline of Annual Research Achievements |
本年度は3年目のテーマである「実問題における適用」に向けて,1)複数種類の動的変化が複合した環境に対する通信なしマルチエージェント強化学習法の提案,および,2)環境変化が断続的に発生する際の適用方法を提案し,最後に,3)提案手法を一般化し,適用可能な実応用問題を定義した.具体的には,1)に関して,エージェント毎の学習範囲と利用する情報を制限して学習することで,環境形状及びエージェント・ゴール数の変化へ追従する手法を提案し,その有効性を示した.また,2)に関して,1)での提案手法において,学習範囲を制限するタイミング,および利用する情報の窓(どれほど昔の情報まで利用するか)をハイパーパラメータとして設定していたものを,環境に合わせて適応的に設定することで,タイミングが異なる断続的な動的変化に追従可能となるように拡張した.これらの成果により,物流システムでいえば,物資の補給地点や目的地,通行路が変わるだけではなく,物資を運ぶロボットの数や目的が増えたとき,そしてそのタイミングが不明であっても,各ロボットが通信を一切行わずに協調行動の学習が可能となり,実問題に対する適用範囲が大きく広がった.そしてこれらの成果は,国際ジャーナルSN Computer Scienceへ掲載が決定しており,英語論文誌SICE JCMSIに掲載済みである.また,国内学会FIT2019,JAWS2019,そして国際会議OptLearnMAS2020にて発表を行った.最後に,3)に関しては,1)と2)の提案手法について,学習範囲の制限により,各エージェントの学習を2体エージェントの協調で分割可能腕あり,提案手法の性能は十分発揮できることを示し,問題に関しては,提案手法がエージェント同士の衝突を加味した上でも性能を発揮することを実験で示した.これにより,実問題として想定していた倉庫ロボットへの適用が可能であることがわかった.この成果は電気学会論文誌Cに掲載済みである.
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|