未知の協調・環境を想定したマルチエージェント強化学習の知識転移
Project/Area Number |
21K17807
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Okayama University |
Principal Investigator |
上野 史 岡山大学, 環境生命自然科学学域, 助教 (30880687)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 強化学習 / マルチエージェントシステム / 知識転移 / 未知環境 / ニューラルネットワーク / 知識 |
Outline of Research at the Start |
本研究では,ロボットなどの活動主体(エージェント)が複数存在するときの協調制御ルールを,周囲環境から得た情報から各々が学習するマルチエージェント強化学習において,学習すべき協調や環境が未知であるときに適応した協調行動学習法を提案する.具体的には,他の環境などで今まで学習したエージェントの学習結果を各要素に分割し,階層的に抽象化することで生成した知識を組み合わせて学習することで未知の協調・環境に適応する.
|
Outline of Annual Research Achievements |
本年度は,マルチエージェント強化学習の未知の協調,未知の環境への適応に向けた,(1)学習結果のモジュール化,(2)知識モジュールに基づく未知の協調行動学習法の提案,(3)未知環境を想定した知識の再構成法の提案の内,主にテーマ(3)の手法を提案し有効性を検証した.具体的には,知識モジュールを木構造の関数として表現し,環境に合わせて関数の枝葉を繋ぎかえることで知識を再構成し,強化学習を通した関数パラメータの最適化によって環境へ適応する手法を提案した.また,目的選択に係るパラメータ更新法を改良することで,環境変化後の未知な状況にも環境変化前の知識を適切に利用可能な手法を提案した.検証には,ロボットナビゲーションのシミュレーション実験および周期的に形状が変化する環境での複数ロボットのシミュレーション実験を用いて,未知の協調および環境における提案手法の有効性を示した.本成果は,知識モジュールの抽出と組み合わせによるマルチエージェント強化学習の効果を実証できた点において重要である.なお,本成果は国際会議EXTRAAMAS 2023とGECCO 2023および国内学会SICE SSI,SICE SIにおいて発表し,英文ジャーナルJACIIIにてその成果の一部をまとめている. 研究期間全体を通した成果として,未知の協調および環境に対する効率的な知識利用法とそれを利用したマルチエージェント強化学習の方法論を明らかにし,その効果を実験によって実証できた.具体的には,環境情報をニューラルネットワークによって抽出し,それを利用した木構造による関数を知識モジュールとして提案し,木構造の関数の枝葉を繋ぎ換えそしてパラメータを強化学習により最適化することで本研究の目標を達成した.
|
Report
(3 results)
Research Products
(15 results)