2001 Fiscal Year Annual Research Report
状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法
Project/Area Number |
12680387
|
Research Institution | The University of Tokushima |
Principal Investigator |
小野 典彦 徳島大学, 工学部, 教授 (60194594)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 拓也 徳島大学, 工学部, 助手 (50314844)
小野 功 徳島大学, 工学部, 助教授 (00304551)
|
Keywords | マルチエージェントシステム / マルチエージェント強化学習 / 強化学習 / 進化計算 / 機械学習 / 共進化 / 世代交代モデル / 自律エージェント |
Research Abstract |
近年,強化学習手法を応用して,マルチエージェント環境におかれた自律エージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試みで("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれた自律エージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう. 平成13年度は,状態空間の自動的な圧縮表現に基づく新しいマルチエージェント強化学習手法として,エージェントの行動政策を予め構造が決定されたニューラルネットにより表現すると共に,その重みベクトルを実数値遺伝的アルゴリズムにより最適化することに基礎をおく"進化型ニューラルネット手法"に焦点を合わせ,その有効性を確認した. このマルチエージェント強化学習手法は,状態空間の爆発や報酬の遅れへの対応が可能であるばかりでなく,連続値/離散値が混在する入出力ヘの対応,連続/離散時間による意思決定への対応,大規模な問題への対応,大域的に良好な行動政策の獲得への対応など,従来手法にはない優れた特色を有しており,汎用のマルチエージェント強化学習手法として有望である. 平成13年度は特に,(i)携帯電話網における動的チャネル割当て問題および(ii)非同期型シーソー均衡化問題への応用を通して,進化型ニューラルネットに基づくマルチエージェント強化学習手法の有効性を確認すると共に,同手法が従来手法を凌駕する性能を有することも実験的に確認した.平成13年度はさらに,同手法が従来手法では解決が困難とされていた対戦型ゲームにも応用可能であることを確認した.
|
Research Products
(6 results)
-
[Publications] 高橋みゆき: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会論文集. 61-62 (2001)
-
[Publications] 中原利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 63-64 (2001)
-
[Publications] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 15-16 (2001)
-
[Publications] 山元隆行: "非同期型マルチエージェント系の進化的設計"第45回システム制御情報学会研究発表講演会論文集. 19-20 (2001)
-
[Publications] 道辻壮哉: "進化型ニューラルネットによるサッカーエジェントの創発的設計"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)
-
[Publications] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)