研究課題/領域番号 |
12680369
|
研究機関 | 埼玉工業大学 |
研究代表者 |
永野 三郎 埼玉工業大学, 先端科学研究所, 教授 (50010913)
|
研究分担者 |
植田 一博 東京大学, 大学院・情報学環・学際情報学府, 助教授 (60262101)
|
キーワード | マルチエージェント / 機械学習 / 協調学習 / サッカーエージェント / 強化学習 / RoboCup / 確率推定 |
研究概要 |
昨年度までに申請者らは、人間のサッカープレイヤに類似した学習方法によって、他プレイヤの行動の予測と状況のリスク計算の最適化を行うサッカーエージェントを構築した。本年度は、(1)この学習が、動的環境下におけるマルチエージェント学習の方法として頑健性をもつことの検証、および(2)より一般的な連続空間での学習環境へのこの学習法の拡張、を行った。 (1)に関しては、同一のサッカー課題(中盤における攻守3対2のボールの取り合いと攻撃側による防御ラインの突破課題)を、強化学習の代表的な方法であるQ-Learning法ないしProfit Sharing法を用いて学習したサッカーエージェントのパフォーマンスと本サッカーエージェントのパフォーマンスが有意に優れ、かつ環境の変動に対してもロバストであることが示された。 (2)に関しては、既存のサッカーエージェントで、単純な動作ルールを用いながらもRoboCupチャンピオンチームCMUnitedを下すほどの高いパフォーマンスを示すチームYowAIの基本スキルをベースとし、意思決定部分を本サッカーエージェントの他プレイヤの行動の予測と状況のリスク計算の最適化に基づく方法によるもので置き換えたエージェントを構築した。計算量の問題から、このエージェントは自分を中心とした相対グリッドにより環境の情報を状態変数化することとした。シミュレーション環境としてRoboCup標準サッカーサーバを用いた。このエージェントをオリジナルのYowAIエージェントと、上述したサッカー課題のパフォーマンスで比較した結果、本サッカーエージェントのパフォーマンスが有意に優れていることが示された。 以上より、申請者が提案した学習方法が、動的環境下におけるマルチエージェント学習の方法として、頑健性と一般性を有することが示された。
|