研究課題/領域番号 |
21K17807
|
研究機関 | 岡山大学 |
研究代表者 |
上野 史 岡山大学, 自然科学学域, 助教 (30880687)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | マルチエージェントシステム / 強化学習 / ニューラルネットワーク / 未知環境 / 知識 |
研究実績の概要 |
本年度は,マルチエージェント強化学習の未知の協調,未知の環境への適応に向けた,(1)学習結果のモジュール化,(2)知識モジュールに基づく未知の協調行動学習法の提案,(3)未知環境を想定した知識の再構成法の提案の内,主にテーマ(1)(2)を実施した.具体的には,まず,従来提案したエージェント間の通信を介さずに環境変化に追従可能な協調行動学習法を,必要な協調行動が動的変化する迷路問題に適用し,協調の変化に追従可能であるかその性能を分析した.結果として協調の変化に対して各エージェントの目的を適切に変化させてそれに追従し学習することを確認した.また,問題領域が同一であれば必要な協調が異なっても適切に学習可能であることが明らかとなった.本成果により深層強化学習器による複数の協調行動の同時学習の可能性が示唆されており,重要な成果であるといえる.また,Coin Gameと呼ばれる他エージェントの学習目標を推定することで高い利得が得られる問題において,従来手法では他エージェントの情報を基に学習していたが,報酬設計によりそれに基づくことなく学習可能な手法を提案し,その有効性を示した.結果として深層強化学習器では直接的な情報を伴わなくとも未知の協調行動を学習し得ることが明らかとなった.本成果は,知識モジュールを抽出した際にそれを組み合わせることによる効果が示唆されており,本研究の前提を裏付ける点において重要である.これらの成果は,計測自動制御学会システム・情報部門学術講演会2021,およびSMASH22 Winter Symposiumにて発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究は,マルチエージェント強化学習の実環境適用範囲の拡大のための基盤技術確立を目指している.その目標達成に向けて,今年度は,(1)学習結果のモジュール化,および(2)知識モジュールに基づく未知の協調行動学習法の提案において重大な知見を得た.そして,その成果を計測自動制御学会システム・情報部門学術講演会2021およびSMASH Winter Symposiumにて発表している.なお,項目(1)に関して,知識モジュールの構造は何が適切であるか等のモジュールの抽出法に関して検討し実装する必要がある.さしあたり,ルールの形式で抽出することを想定しているが,学習器自体に影響はないため大幅な改良が必要になることはないと考えている.また,(3)未知の環境への対応に関しては申請者が従来研究している動的環境を利用することができるため,改良点はあるがまったく適応できないことはないと考えている.以上から,本研究計画に関して現在まで概ね順調に進展しているが,知識モジュールの抽出に関して未だ十分な成果をあげられていないことから,僅かながら遅れが出ているといえる.
|
今後の研究の推進方策 |
今後は知識モジュールの生成を主軸に,その未知の協調および未知の環境への適用を踏まえた知識モジュールの形態について探求する.まず,テーマ(1)(2)に関して,提案手法をルールとして表現した知識を生成するように拡張し,その性能を複数の問題で評価し,知識の表現力に関して検証する.具体的には,オートエンコーダ等のデコーダ機能を持つニューラルネットワークによりルールもしくはルールの属性となる要素を抽出し,それに基づくルールを評価する.そして,[1]にて公開されている問題を一つの例として,提案手法が想定していない未知の協調行動をルールの組み合わせにより獲得可能かどうかを評価する.また,その際学習器を別の問題へ適用し,未知の環境における性能も評価し,最終年に向けた方針を検討する.最後にここまでの研究成果を纏める予定である. [1] M. Chevalier-Boisvert, et al. Minimalistic Gridworld Environment for OpenAI Gym. https://github.com/maximecb/gym-minigrid, 2018.
|