2020 Fiscal Year Research-status Report
抽象度の異なる協調行動を獲得可能なマルチエージェント強化学習
Project/Area Number |
20K23326
|
Research Institution | Okayama University |
Principal Investigator |
上野 史 岡山大学, 自然科学研究科, 助教 (30880687)
|
Project Period (FY) |
2020-09-11 – 2022-03-31
|
Keywords | マルチエージェントシステム / 強化学習 / ニューラルネットワーク / 抽象度 / 協調 |
Outline of Annual Research Achievements |
本年度は,粒度が異なる入力情報をヘテロ情報として,(1)ヘテロ情報の階層的抽象化,(2)ヘテロ情報に基づくエージェント間協調行動学習,(3)動的環境への適用という3つの研究テーマの内,主にテーマ(1)(2)を実施し,テーマ(3)に関しても知見を得た.具体的には,入力情報の粒度が異なる迷路問題を新たに設計し,その上で深層強化学習の振る舞いを分析した.その結果,ニューラルネットワークの重みは入力情報ではなく,主にその構造に依存して変化することが明らかとなった.これにより,ヘテロ情報を入力とした場合はその入力層が同一であれば,入力情報が異なれば多少の変化はあるものの,各層によって情報の抽象化が行われているため,途中層からは同様の情報となることがいえる.これは,ヘテロ情報に基づく深層強化学習において,その前提の正しさを裏付けるものであり,重要な結果である.また,前述の結果を踏まえて,申請者が従来提案している協調行動学習法を深層強化学習へ拡張し,その有効性を明らかにした.特に,拡張した提案手法は最適方策を発見しており,理論的な保証が維持できていることも実験的に確認できた.これらの結果は,他の問題に対しても提案手法が有効に働く可能性を示しており,非常に重要な知見である.そしてこれらの成果は,第48回知能システムシンポジウムにて発表を行った.また,提案手法による成果は国際会議へ論文を投稿しており,そして来年度論文誌で結果をまとめる予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,マルチエージェント強化学習の実環境適用範囲の拡大のための基盤技術確立を目指している.その目標達成に向けて,今年度は,(1)階層的抽象化を可能にするネットワーク構造,および(2)ヘテロ情報に基づくエージェント間協調行動学習を提案し,さらに(3)動的環境適用に向けた重大な知見を得た.そして,項目(1)に関してその成果を第48回知能システムシンポジウムにて発表している.なお,項目(1)(2)に関して,より複雑な環境における振る舞いは分かっていないため,それに関して検討・改良を実施する必要がある.さしあたり,ネットワークの重みはその構造にある程度依存することを既に実験的に突き止めているため,大幅な改良が必要になることはないと想定している.また,2021年度の目標としている動的環境への展開に対して,申請者が従来提案していた手法が適用可能であることから,それを動的環境に拡張した手法も適用可能であると考えられる.以上から,項目(1)(2)に関する改良が少々必要ではあるが,項目(3)に関する重要な知見を得ていることからも,本研究計画に関して現在まで順調に進展しているといえる.
|
Strategy for Future Research Activity |
今後は実機実験を主軸にした学習法の構築を目指す.まず,テーマ(1)(2)に関して,今年度にて提案した手法を実機実験に近い問題に展開する.具体的には,[1]にて公開されている問題を実施して,より複雑な問題及びその上で情報量の多い画像を入力情報とした問題にて提案手法の振る舞いを分析,有効性の検証を実施する.その際,入力情報の抽象度を変化させて協調行動を学習する必要があることを想定し,複数の異なる層構造を持つネットワークにて学習し,適切なネットワークを確率的に選択して学習するように手法を拡張する.そして,申請者の提案してきた動的環境へ追従した協調行動学習法を提案手法へ適用し,その有効性を検証する.その後は,2体のロボットによる経路計画問題へ適用し,実際のヘテロな入力情報に対する協調行動学習法を提案し,その有効性を検証する.最後に本研究を纏める. [1] M. Chevalier-Boisvert, et al. Minimalistic Gridworld Environment for OpenAI Gym. https://github.com/maximecb/gym-minigrid, 2018.
|
Research Products
(2 results)