今年度は、まず初めに、これまでに提案していた「罰回避政策形成アルゴリズム」をオセロゲームに適用することを行った。一般に、ゲーム問題は離散マルコフ決定過程の問題として記述されるが、そこでは、必ずしも状態遷移確率を同定し最適性を保証する必要はなく、負けないこと、すなわち罰の回避が大前提となる場合が多い。この性質によりゲーム問題は、罰回避政策形成アルゴリズムに適した問題領域であると言えるが、適切な学習を保証するためには、過去に経験したすべてのルールと状態遷移先の対を記憶し続けなければならない。膨大な状態空間を持つゲーム問題等では、この制約を緩和する手法が重要となる。 今年度本研究では、罰回避政策形成アルゴリズムにおいて記憶量を節約するために、状態遷移の一部が既知の離散マルコフ決定過程環境を対象に、罰を得る可能性のある状態のみを記憶し少ないメモリで学習を進行させる手法を提案した。さらに、膨大な状態空間を効率よく探索するために、既存知識を制約条件として罰回避政策形成アルゴリズムに組み込む方法を提案した。提案手法の有効性を、代表的な探索強化型対戦オセロプログラムであるKITTYとの対戦を通じ確認した。 さらに現在は、拡張された罰回避政策形成アルゴリズムを、TeamBotsと呼ばれるサッカーサーバへ適用し始めている。一般に、本問題は、複数種類の報酬および罰が存在するマルチエージェント問題として定式化される。本手法をこのような問題領域へ適用するために、まず初めに複数種類の報酬および罰が存在する環境への拡張を行い、その後マルチエージェント環境への拡張を行う予定である。これらの結果を踏まえ、本研究の最終目的である「強化学習を実問題に応用する際の報酬および罰の設計指針」を導くことを考えている。
|