2000 Fiscal Year Annual Research Report
状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法
Project/Area Number |
12680387
|
Research Institution | The University of Tokushima |
Principal Investigator |
小野 典彦 徳島大学, 工学部, 教授 (60194594)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 拓也 徳島大学, 工学部, 助手 (50314844)
小野 功 徳島大学, 工学部, 助教授 (00304551)
|
Keywords | マルチエージェントシステム / 強化学習 / 進化的計算 / ニューラルネット / 機械学習 / 人工知能 / 分散人工知能 / 実数値遺伝的アルゴリズム |
Research Abstract |
本年度の研究実績は以下の通りである. 1 マルチエージェント強化学習における学習モジュールの自動獲得:本研究の代表者らは,マルチエージェント強化学習において顕著に生ずる状態空間の組合せ的爆発を解消することを目指して,各エージェントの強化学習器をモジュール分割することによって,その状態空間を適度に圧縮表現することを可能とするモジュール分割型強化学習と呼ばれる手法を提案すると共に,その有効性を実験的に確認してきた.ここでは,モジュール分割型強化学習手法と進化的学習手法を融合することによって,エージェント群に,適切な状態空間表現(モジュール構造)を自動的に獲得させながら,それらが採用すべき協調行動を効果的かつ自動的に組織化させるためのマルチエージェント強化学習手法を設計し,追跡問題への適用を通して,その有効性を確認した. 2 進化型ニューラルネットによるマルチエージェント強化学習:モジュール分割型強化学習よりも強力な状態圧縮表現を実現することを目的として,エージェントの行動政策やその状態の価値関数を予め構造が決定された多層ニューラルネットによって表現すると共に,その重みベクトルを実数値GAによって自動的に最適化することに基礎をおく新しいマルチエージェント強化学習手法を提案した.本手法は,マルチエージェント強化学習における状態空間の爆発に対応可能なだけでなく,離散値・連続値が混在する入出力,大域的に良好な行動政策の探索,エージェント群による非同期的な意思決定などにも対応可能であり,単純で汎用のマルチエージェント強化学習手法となることが期待できる.ここでは特に,携帯電話網における動的チャネル割当て問題および非同期型シーソー均衡化問題などへの応用を通して,同手法の有効性を確認した.
|
Research Products
(6 results)
-
[Publications] Isao ONO,: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proceedings of the 2000 Genetic and Evolutionary Conference. 203-210 (2000)
-
[Publications] Isao ONO,: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proceedings of the 2000 Congress on Evolutionary Computation. 659-666 (2000)
-
[Publications] 山元隆行,: "非同期型マルチエージェント強化学習問題への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. (2001)
-
[Publications] 中原利和,: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
-
[Publications] 山下裕志,: "異種エージェントによる対戦型ゲーム政策の共進化的獲得に関する実験的考察"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
-
[Publications] 高橋みゆき,: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会講演論文集. (2001)