研究概要 |
本研究は,実際のサッカーの指導で戦術がいかに獲得されるかを参考に,小人数による練習課題の達成,グリッドによる適切な認知地図の獲得,そして,適応学習によるプレーの最適化を軸にした協調戦術決定学習アルゴリズムを提案し,そのパフォーマンスをシミュレーションにより検証したものである.エージェントは環境をグリッド化して知覚することで有限の状態変数空間を持ち,この状態変数の遷移を条件付き確率によって予測することで他エージェントの振舞いの傾向を知り,この予測と各状態変数の効用から期待効用を計算し,これを最大化する戦術を選択する.練習を通じエージェントは状態間の条件付確率と効用関数を学習することができる. 本研究では,まず3×4の離散グリッドフィールドで,3対2のミニゲームを対象にシミュレーションを行った.3攻撃エージェントと2防御エージェントはそれぞれエンドラインの突破課題と防御課題の達成時に状態の効用値を強化した.シミュレーションの結果,学習によって壁パスやワン・ツー・パスのような局所的協調戦術が獲得されること,および数的に優位な攻撃チームのミニゲームでの勝率が安定して高くなること,が確認された. 次に,連続空間でのシミュレーションをRoboCup標準サッカーサーバ環境で行うための予備的実験を行った.各エージェントの周囲に相対的なグリッドを内部モデルとして与え,各グリッドをパス到達可能性や敵味方の寡多により変数化し,離散空間でのエージェント同様,条件付き確率により予測し,課題の達成により状態の効用値を学習する方式を採用した.予備的なシミュレーションの結果,区切られた学習領域でのディフェンスライン突破課題に基づき学習したエージェントを,11対11のゲームの中盤で用いると,学習エージェントの参加したチームは,学習を行わないエージェントのチームに対して優勢であることが示された.
|