研究概要 |
近年,強化学習手法を応用して,マルチエージェント環境におかれたエージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試み("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれたエージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう. 本研究の代表者らは,適度に圧縮表現された状態空間上で各エージェントが学習可能なマルチエージェント強化学習手法を提案し,それにより上記の状態空間の爆発が回避し得ることを実験的に示してきた.平成12年度は,この手法と進化計算を併用することによって,エージェント群に,状態空間の爆発を回避するための適切な状態空間表現を自動的に獲得させながら,それらが採用すべき協調行動を効果的に組織化させるための手法を提案した.提案手法は,マルチエージェントシステムを構成するエージェントの状態表現およびその行動政策を人手に頼ることなく自動的に設計するための要素技術を提供する. 平成13年度は,状態空間の爆発を回避可能な新しいマルチエージェント強化学習手法として,エージェントの行動政策を予め構造が決定されたニューラルネットにより表現すると共に,その重みベクトルを実数値GAにより最適化することに基礎をおく"進化型ニューラルネット手法"に基づく手法を提案した.提案手法は,連続値/離散値が混在する入出力への対応,連続/離散時間による意思決定への対応,大規模な問題への対応,大域的に良好な行動政策の獲得への対応など,従来手法にはない優れた特色を有しており,マルチエージェントシステムの自動設計のための汎用的な要素技術を提供する.
|