Research Abstract |
申請者らは,人間のサッカープレイヤに類似した学習方法によって,他プレイヤの行動の予測と状況のリスク計算の最適化を行うサッカーエージェントを既に構築している.本年度は,(1)この環境での学習によって,どのような典型的なプレーが学習されたのかという分析,および(2)より一般的な連続空間での学習環境へのこの学習法の拡張,を行った. (1)に関しては,学習によって獲得された典型的なプレーを、ゲームのログから状態遷移のチャンク(状態遷移の連続系列)として抽出し,それら抽出されたチャンクの特徴を分析した.その結果,いわゆる壁パスやワンツーパスなどのスペースの予測に基づいたパスが利用されたチャンクでは,状態間の遷移確率が高いことがわかった.したがって,壁パスやワンツーパスなどの連続的な基本戦術の獲得は,状態間の条件つき確率を適切に学習した結果、可能となっていることが明らかになった.さらに,これら学習結果はアタッカ・チーム内のメンバー間,あるいはディフェンダ・チーム内のメンバー間で共有されてはいるものの,アタッカとディフェンダ間では異なることがわかった.すなわち,本サッカーエージェントは,アタッカ・ディフェンダという役割分担を学習し得ていること,ただし,各チーム内ではほぼ均質の学習エージェントだと考えられること(つまり,各チーム内での役割分担は生じていないこと)が結論できた.このようなタスクに応じた役割分担の自動的獲得は,ある種のシンボルの出現だと理解することができる. (2)に関しては,既存のサッカーエージェントで,単純な動作ルールを用いながらもRoboCupチャンピオンチームCMUnitedを下すほどの高いパフォーマンスを示すチームYowAIの基本スキルをベースとし,意思決定部分を本サッカーエージェントの他プレイヤの行動の予測と状況のリスク計算の最適化に基づく方法によるもので置き換えたエージェントを構築した.計算量の問題から,このエージェントは自分を中心とした相対グリッドにより環境の情報を状態変数化することとした.シミュレーション環境としてRoboCup標準サッカーサーバを用いた.このエージェントを,オリジナルのYowAIエージェントと,上述したサッカー課題のパフォーマンスで比較した結果,本サッカーエージェントのパフォーマンスが有意に優れていることが示された.従って,申請者が提案した学習方法が,動的環境下におけるマルチエージェント学習の方法として一般性を有することが示された.
|