• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1995 年度 実績報告書

複数戦略型マルチエージェントシステムとその学習法の構築

研究課題

研究課題/領域番号 07680376
研究種目

一般研究(C)

研究機関北海道大学

研究代表者

三上 貞芳  北海道大学, 工学部, 助教授 (50229655)

研究分担者 鈴木 恵二  北海道大学, 工学部, 助手 (10250482)
嘉数 侑昇  北海道大学, 工学部, 教授 (60042090)
キーワードマルチエージェント / 強化学習 / 人工生命 / 遺伝的アルゴリズム / 協調 / 機械学習 / 複数戦略 / 異種エージェント
研究概要

本研究は,複数の未知要因が相互に動的に影響を与えているような実世界における制御問題を対象とした柔軟な学習機構を構築することを目的として,独立した問題解決を試みるエージェント群を競合・協調させることで,試行錯誤的でありながらも,全体として選りすぐれた解決戦略を自律的に発見していくような,複数の戦略を統合した学習機構の実現を目指すものであり,当該期間内に得られた成果は以下のようにまとめられる.
1.複数要因を有する動的実環境に対する柔軟な学習機構として,異種の戦略を持ち,互いの戦略獲得機構に関する知識を持たないエージェントが動的に結合し同期的行動を生成するようなマルチエージェント系により構成されるシステムを考慮すべきことがわかり,これが局所非同期通信に基づく全体の同期行動の学習による生成問題に帰着されることが明らかになった.
2.同期行動獲得手段として,具体的に次の2種類のアプローチを提案した
(1)期待報酬信号を非同期に交換し,これと局所報酬信号に時間・空間的な競合または平均化フィルタを適用することで近似的に系全体の目標関数を改善するようなフィルタ型強化学習手法を提案した.
(2)適当な頻度で平均報酬を交換することが可能な中規模エージェント群に対する手法として,各強化学習機構の学習パラメータをインターリーブ的に遺伝アルゴリズムを介して大域最適化するハイブリッド手法を提案した.
3.以上の検証として,AGV干渉回避問題,交通信号機大域制御問題を例として計算機実験を試み,局所通信が全体目標を改善することを確認したが,一方で性能に関して強いパラメータ依存性が見られる点,また極度に競合するような問題設定においてはほとんど改善の効果が見られなかった点などに関して,今後解析すべき課題が残された.

  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] S.Mikami,M.Wada and T.C.Fogarty:"Co-operative Reinforcement Learning By Payoff Filters" Machine Learning:ECML-95. 319-322 (1995)

  • [文献書誌] S.Mikami,Y.Kakazu and T.C.Fogarty: "Broadcast Based Fitness Sharing GA for Conflict Resolution Among Autonomous" Evolutionary Computing 2. 40-47 (1995)

  • [文献書誌] S.Mikami,M.Wada and T.C.Fogarty: "Distributed GA to Evolve Co-operation of Autonomous Agents" IEEE Singapore International Conference for Information Computation and Instrumentation. 173-177 (1995)

  • [文献書誌] S.Mikami,M.Wada and T.C.Fogarty: "Learning to Achieve Co-operation by Temporal-Spatial Fitness Sharing" IEEE International Conference for Evolutionary Computation. 803-807 (1995)

URL: 

公開日: 1997-02-26   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi