2001 年度実績報告書

マルチエージェント系における協調学習を介したシンボル獲得の実現

研究課題

研究課題/領域番号	13780270
研究種目	奨励研究(A)
研究機関	東京大学
研究代表者	植田一博東京大学, 大学院情報学環・学際情報学府, 助教授 (60262101)
キーワード	マルチエージェント / 機械学習 / 協調学習 / サッカーエージェント / 強化学習 / RoboCup / 確率推定 / チャンキング
研究概要	申請者らは,人間のサッカープレイヤに類似した学習方法によって,他プレイヤの行動の予測と状況のリスク計算の最適化を行うサッカーエージェントを既に構築している.本年度は,(1)この環境での学習によって,どのような典型的なプレーが学習されたのかという分析,および(2)より一般的な連続空間での学習環境へのこの学習法の拡張,を行った. (1)に関しては,学習によって獲得された典型的なプレーを、ゲームのログから状態遷移のチャンク(状態遷移の連続系列)として抽出し,それら抽出されたチャンクの特徴を分析した.その結果,いわゆる壁パスやワンツーパスなどのスペースの予測に基づいたパスが利用されたチャンクでは,状態間の遷移確率が高いことがわかった.したがって,壁パスやワンツーパスなどの連続的な基本戦術の獲得は,状態間の条件つき確率を適切に学習した結果、可能となっていることが明らかになった.さらに,これら学習結果はアタッカ・チーム内のメンバー間,あるいはディフェンダ・チーム内のメンバー間で共有されてはいるものの,アタッカとディフェンダ間では異なることがわかった.すなわち,本サッカーエージェントは,アタッカ・ディフェンダという役割分担を学習し得ていること,ただし,各チーム内ではほぼ均質の学習エージェントだと考えられること(つまり,各チーム内での役割分担は生じていないこと)が結論できた.このようなタスクに応じた役割分担の自動的獲得は,ある種のシンボルの出現だと理解することができる. (2)に関しては,既存のサッカーエージェントで,単純な動作ルールを用いながらもRoboCupチャンピオンチームCMUnitedを下すほどの高いパフォーマンスを示すチームYowAIの基本スキルをベースとし,意思決定部分を本サッカーエージェントの他プレイヤの行動の予測と状況のリスク計算の最適化に基づく方法によるもので置き換えたエージェントを構築した.計算量の問題から,このエージェントは自分を中心とした相対グリッドにより環境の情報を状態変数化することとした.シミュレーション環境としてRoboCup標準サッカーサーバを用いた.このエージェントを,オリジナルのYowAIエージェントと,上述したサッカー課題のパフォーマンスで比較した結果,本サッカーエージェントのパフォーマンスが有意に優れていることが示された.従って,申請者が提案した学習方法が,動的環境下におけるマルチエージェント学習の方法として一般性を有することが示された.

研究成果
(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] Kumada, Y., Ueda, K.: "Emergence of Cooperative Tactics by Soccer Agents with Ability of Prediction and Learning"Lecture Notes in Artificial Intelligence. 2159. 539-542 (2001)
[文献書誌] 熊田陽一郎, 植田一博: "予測能力を持つサッカーエージェントによる協調戦術の獲得"人工知能学会誌. 16・1. 120-127 (2001)
[文献書誌] 植田一博: "認知ロボティクス:認知・知能を捉えるツールとしてのロボット"ESTRELA. 86. 18-25 (2001)