研究概要 |
近年,強化学習手法を応用して,マルチエージェント環境におかれた自律エージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試みで("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれた自律エージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう. 平成13年度は,状態空間の自動的な圧縮表現に基づく新しいマルチエージェント強化学習手法として,エージェントの行動政策を予め構造が決定されたニューラルネットにより表現すると共に,その重みベクトルを実数値遺伝的アルゴリズムにより最適化することに基礎をおく"進化型ニューラルネット手法"に焦点を合わせ,その有効性を確認した. このマルチエージェント強化学習手法は,状態空間の爆発や報酬の遅れへの対応が可能であるばかりでなく,連続値/離散値が混在する入出力ヘの対応,連続/離散時間による意思決定への対応,大規模な問題への対応,大域的に良好な行動政策の獲得への対応など,従来手法にはない優れた特色を有しており,汎用のマルチエージェント強化学習手法として有望である. 平成13年度は特に,(i)携帯電話網における動的チャネル割当て問題および(ii)非同期型シーソー均衡化問題への応用を通して,進化型ニューラルネットに基づくマルチエージェント強化学習手法の有効性を確認すると共に,同手法が従来手法を凌駕する性能を有することも実験的に確認した.平成13年度はさらに,同手法が従来手法では解決が困難とされていた対戦型ゲームにも応用可能であることを確認した.
|