2000 年度実績報告書

状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法

研究課題

研究課題/領域番号	12680387
研究機関	徳島大学
研究代表者	小野典彦徳島大学, 工学部, 教授 (60194594)
研究分担者	伊藤拓也徳島大学, 工学部, 助手 (50314844) 小野功徳島大学, 工学部, 助教授 (00304551)
キーワード	マルチエージェントシステム / 強化学習 / 進化的計算 / ニューラルネット / 機械学習 / 人工知能 / 分散人工知能 / 実数値遺伝的アルゴリズム
研究概要	本年度の研究実績は以下の通りである. 1 マルチエージェント強化学習における学習モジュールの自動獲得:本研究の代表者らは,マルチエージェント強化学習において顕著に生ずる状態空間の組合せ的爆発を解消することを目指して,各エージェントの強化学習器をモジュール分割することによって,その状態空間を適度に圧縮表現することを可能とするモジュール分割型強化学習と呼ばれる手法を提案すると共に,その有効性を実験的に確認してきた.ここでは,モジュール分割型強化学習手法と進化的学習手法を融合することによって,エージェント群に,適切な状態空間表現(モジュール構造)を自動的に獲得させながら,それらが採用すべき協調行動を効果的かつ自動的に組織化させるためのマルチエージェント強化学習手法を設計し,追跡問題への適用を通して,その有効性を確認した. 2 進化型ニューラルネットによるマルチエージェント強化学習:モジュール分割型強化学習よりも強力な状態圧縮表現を実現することを目的として,エージェントの行動政策やその状態の価値関数を予め構造が決定された多層ニューラルネットによって表現すると共に,その重みベクトルを実数値GAによって自動的に最適化することに基礎をおく新しいマルチエージェント強化学習手法を提案した.本手法は,マルチエージェント強化学習における状態空間の爆発に対応可能なだけでなく,離散値・連続値が混在する入出力,大域的に良好な行動政策の探索,エージェント群による非同期的な意思決定などにも対応可能であり,単純で汎用のマルチエージェント強化学習手法となることが期待できる.ここでは特に,携帯電話網における動的チャネル割当て問題および非同期型シーソー均衡化問題などへの応用を通して,同手法の有効性を確認した.

研究成果

(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] Isao ONO,: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proceedings of the 2000 Genetic and Evolutionary Conference. 203-210 (2000)
[文献書誌] Isao ONO,: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proceedings of the 2000 Congress on Evolutionary Computation. 659-666 (2000)
[文献書誌] 山元隆行,: "非同期型マルチエージェント強化学習問題への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. (2001)
[文献書誌] 中原利和,: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
[文献書誌] 山下裕志,: "異種エージェントによる対戦型ゲーム政策の共進化的獲得に関する実験的考察"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
[文献書誌] 高橋みゆき,: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

2000 年度 実績報告書

状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法

研究代表者

小野 典彦 徳島大学, 工学部, 教授 (60194594)

研究成果

[文献書誌] Isao ONO,: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proceedings of the 2000 Genetic and Evolutionary Conference. 203-210 (2000)

[文献書誌] Isao ONO,: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proceedings of the 2000 Congress on Evolutionary Computation. 659-666 (2000)

[文献書誌] 山元隆行,: "非同期型マルチエージェント強化学習問題への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. (2001)

[文献書誌] 中原利和,: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

[文献書誌] 山下裕志,: "異種エージェントによる対戦型ゲーム政策の共進化的獲得に関する実験的考察"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

[文献書誌] 高橋みゆき,: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

2000 年度実績報告書

小野典彦徳島大学, 工学部, 教授 (60194594)