2002 Fiscal Year Annual Research Report

マルチエージェント系における協調学習を介したシンボル獲得の実現

Research Project

Project/Area Number	13780270
Research Institution	The University of Tokyo
Principal Investigator	植田一博東京大学, 大学院・情報学環, 助教授 (60262101)
Keywords	マルチエージェント / 機械学習 / 協調学習 / 強化学習 / 確率推定 / サッカーエージェント / RoboCup / チャンキング
Research Abstract	昨年度は,人間のサッカープレイヤに類似した学習方法によって,他プレイヤの行動の予測と状況のリスク計算の最適化を行うサッカーエージェントを構築したが,本年度は,構築した学習エージェントが,(1)チームプレーに関する学習を行わない既存のRoboCupチーム以上のパフォーマンスを示せるかどうかを実験的に検証した上で,(2)適切なパスの受渡しにとって重要なファクターである,パスの強さとプレイヤの移動速度のバランスをシステマティックに設定する方法を提案するための予備実験を行った。 (1)に関しては,学習の課題として,1.味方間でパスが通れば報酬がもらえる課題(ボール支配課題),2.エンドラインを突破すれば報酬がもらえる課題(防御突破課題),3.11対11形式のゲームによる学習結果の確認,の3種類のシミュレーション実験を行った。比較対象は,申請者らがペースとして用いた,かつてのNo.1チームYowAIである。その結果,ボール支配課題に関しては,申請者の学習エージェントのボール支配時間がYowAIエージェントのそれを有意に上回り,防御突破課題に関しては,学習エージェントのアタッカチームがYowAIエージェントに比較して高い防御突破課題の達成率を示し,11対11のゲームに関しては,申請者のチームが30戦中16勝8敗6引き分けであった。したがって,申請者が提案した学習方法が動的環境下におけるマルチエージェント学習の方法として優れていることが,サッカーエージェントにおけるパフォーマンスの比較から示された。 (2)に関しては,まず,3対2の中盤におけるボール支配を課題としたシミュレーションを行い,グリッドサイズとダッシュ時のプレイヤ移動速度を一定とし,パスの強さのみを変化させた.その変化に応じてボール支配時間が変化することを確認した。さらに,パスの強さに応じたパスの受渡しの変化を調べた結果,近距離パスが通りやすいパラメータ設定と,遠距離パスが通りやすいパラメータ設定があることが明らかとなった。