Multi-agent Reinforcement Learning for Cooperative Policy with Different Abstraction
Project/Area Number |
20K23326
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | Okayama University |
Principal Investigator |
Uwano Fumito 岡山大学, 自然科学学域, 助教 (30880687)
|
Project Period (FY) |
2020-09-11 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | マルチエージェントシステム / 強化学習 / ニューラルネットワーク / 情報粒度 / 協調 / 抽象度 |
Outline of Research at the Start |
本研究では,ロボットのように周囲の環境から得た情報を基に行動を決める主体(エージェント)が,複数集まったときの適切な行動則を獲得するマルチエージェント強化学習を実用化する上での,センサの個体差や状況の違いによる,観測情報の粒度の違いに適応した協調行動学習法を提案する.具体的には,エージェントにおける情報の抽象度を制御し,獲得情報の粒度に従ってエージェント毎の抽象度を調整することで,適切な協調行動を学習する.
|
Outline of Final Research Achievements |
This research analyzed deep reinforcement learning agents’ performance in multiagent system with agents having different resolution in input each other to clarify the neural network can abstract the resolution appropriately. Furthermore, this research extended the previous method which enable agents to learn cooperative policy each other in dynamic environment into deep reinforcement learning to result the agents learned a cooperative policy in multiagent maze problem with agents having different resolution in input. At the end, this research introduced LSTM which can learn in time-sequential data into the proposed method to result that the agents can learn synchronously in that maze problem with environment being extended to dynamic one.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究により,従来のマルチエージェント強化学習では取り上げられることのなかった入力情報の粒度の異なる状況に対する追従という新たな学問分野を切り開くことができた.また,実問題に即して考えてみても,例えば複数ロボットの協働制御を考えたときに,ロボットごとのセンサの粒度が異なることや,故障などの状況により得られる情報の粒度が変化することは一般的だが,マルチエージェント強化学習ではあまり考えられることがなかったため,実問題における性能がシミュレーションと比べて高くない傾向にあった.本研究成果による方法論で,マルチエージェント強化学習を実問題に応用する上での性能向上に寄与できたと考えられる.
|
Report
(3 results)
Research Products
(6 results)