未知の協調・環境の動的性質に追従するエージェント群の協調戦略学習と知識進化

研究課題

研究課題/領域番号	21KK0206
研究種目	国際共同研究加速基金(国際共同研究強化(A))
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	岡山大学
研究代表者	上野史岡山大学, 自然科学学域, 助教 (30880687)
研究期間 (年度)	2022
研究課題ステータス	完了 (2022年度)
配分額 *注記	6,890千円 (直接経費: 5,300千円、間接経費: 1,590千円)
キーワード	進化計算 / 強化学習 / 未知環境 / 知識転移 / マルチエージェントシステム
研究開始時の研究の概要	本国際共同研究は，基課題（若手研究「未知の協調・環境を想定したマルチエージェント強化学習の知識転移」研究課題21K17807）において，実問題を想定した動的環境へ展開するために，動的な未知の環境・協調へ追従するための知識生成法を提案する．具体的には，解釈可能な知識を生成する進化的機械学習を利用して，限られた状況から学習した知識を適応的に進化させることで未知の協調・環境における知識を網羅し，エージェント群がそれを転移させて多様な協調戦略を学習することで，協調・環境の未知の性質が動的変化する際もその適応を可能にし，その戦略を解釈可能な知識として保持することを可能にする．
研究成果の概要	本研究では，知覚エイリアシングにより従来の知識が利用できず，その手がかりもない未知の状況において，他の領域で学習した知識から特徴的な部分を抽出して組み合わせ，更に未知の状況においてはその特徴を階層的に組み合わせることで，時系列的に遷移する状態の共通点と未知の状況との特徴の共通点の双方を考慮した学習が可能となる手法を提案した．これにより，未知の状況であっても，過去に観測した情報を利用することで適応可能であり，また状態遷移を繰り返しても未知の状況に陥り続けて過去の情報が役立たない時であっても，階層構造を用いて観測情報の時系列的なパターンを学習することで追従可能であることがわかった．
研究成果の学術的意義や社会的意義	本成果は，エージェントの数や環境の変化によって未経験の状況に直面しても，自身の知識を最大限に利用してそれに追従し，目的を達成する上で最適な行動を学習可能であるという点において重要な成果である．それに加えて，学習結果を人間が解釈可能な知識として保存可能な点も，今後のロボット系研究において重要である．なお，本成果は当該分野のトップカンファレンスであるGECCO 2023において発表する予定である．