状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法

研究課題

研究課題/領域番号	12680387
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	徳島大学
研究代表者	小野典彦徳島大学, 工学部, 教授 (60194594)
研究分担者	伊藤拓也徳島大学, 工学部, 助手 (50314844) 小野功徳島大学, 工学部, 助教授 (00304551)
研究期間 (年度)	2000 – 2001
研究課題ステータス	完了 (2001年度)
配分額 *注記	3,600千円 (直接経費: 3,600千円) 2001年度: 1,400千円 (直接経費: 1,400千円) 2000年度: 2,200千円 (直接経費: 2,200千円)
キーワード	マルチエージェントシステム / マルチエージェント強化学習 / 強化学習 / 機械学習 / 進化計算 / ニューラルネットワーク / 実数値GA / 最適化 / 共進化 / 世代交代モデル / 自律エージェント / 進化的計算 / ニューラルネット / 人工知能 / 分散人工知能 / 実数値遺伝的アルゴリズム
研究概要	近年,強化学習手法を応用して,マルチエージェント環境におかれたエージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試み("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれたエージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう. 本研究の代表者らは,適度に圧縮表現された状態空間上で各エージェントが学習可能なマルチエージェント強化学習手法を提案し,それにより上記の状態空間の爆発が回避し得ることを実験的に示してきた.平成12年度は,この手法と進化計算を併用することによって,エージェント群に,状態空間の爆発を回避するための適切な状態空間表現を自動的に獲得させながら,それらが採用すべき協調行動を効果的に組織化させるための手法を提案した.提案手法は,マルチエージェントシステムを構成するエージェントの状態表現およびその行動政策を人手に頼ることなく自動的に設計するための要素技術を提供する. 平成13年度は,状態空間の爆発を回避可能な新しいマルチエージェント強化学習手法として,エージェントの行動政策を予め構造が決定されたニューラルネットにより表現すると共に,その重みベクトルを実数値GAにより最適化することに基礎をおく"進化型ニューラルネット手法"に基づく手法を提案した.提案手法は,連続値/離散値が混在する入出力への対応,連続/離散時間による意思決定への対応,大規模な問題への対応,大域的に良好な行動政策の獲得への対応など,従来手法にはない優れた特色を有しており,マルチエージェントシステムの自動設計のための汎用的な要素技術を提供する.

報告書

(3件)

2001 実績報告書研究成果報告書概要
2000 実績報告書

研究成果
(24件)

すべてその他

すべて文献書誌 (24件)

[文献書誌] Isao Ono: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proc.2000 Genetic and Evolutionary Conference (GECCO 2000). 203-210 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Isao Ono: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proc.2000 Congress on Evolutionary Computation (CEC2000). 659-666 (2000)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Yorikazu Takao: "Constructing Approximation Models Based on Agent-Based Simulations by Genetic Algorithms"Proc.Fourth International Conference on Computational Intelligence and multimedia Applications. 231-235 (2001)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] 山元隆行: "非同期型マルチエージント教化学習への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. 21-26 (2001)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] 中原利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の自動獲得"第45回システム制御情報学会研究発表講演会論文集. 65-66 (2001)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] 問口将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会論文集. (in press). (2002)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Isao Ono, Tetsuo Nijo and Norihiko Ono: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proc. 2000 Genetic and Evolutionary Conference )GECCO2000). 203-210 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Isao Ono, Miyuki Takahashi and Norihiko Ono: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA Using Unimodal Normal Distribution Crossover"Proc. 2000 Congress on Evolutionary Computation )CEC2000). 659-666 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Yorikazu Takao, Isao Ono and Norihiko Ono: "Constructing Approximation Models Based on Agent-Based Simulations by Genetic Algorithms"Proc. Fourth International Conference on Computational Intelligence and Multimedia Applications. 231-235 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Takayuki Yamamoto, Yoko Nakanishi, Isao Ono and Norihiko Ono: "Optimization of Asynchronous Multi-agent Systems with Real-Coded uenetic Algorithms )in Japanese)"Proc. 28th SICE Symposium on Intelligent System. 21-26 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Toshikazu Nakahara, Masayuki Maguchi, Isao Ono and Norihiko Ono: "Evolutionary Acquisition of Policies for Soccer Agents with Neural Networks )in Japanese)"Proc. 45th Annual Conference of the Institute of Systems, Control and Information Engineers (ISCIE). 65-66 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] Masayuki Maguchi, Norihiko Ono and Isao Ono: "On Co-Evolutionary Acquisition of Effective Policies in Two-Player Competitive Games )in Japanese)"Proc. 46th Annual Conference of the Institute of Systems, Control and Information Engineers )ISCIE). (in press). (2002)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2001 研究成果報告書概要
[文献書誌] 高橋みゆき: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会論文集. 61-62 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 中原利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 63-64 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 15-16 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 山元隆行: "非同期型マルチエージェント系の進化的設計"第45回システム制御情報学会研究発表講演会論文集. 19-20 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 道辻壮哉: "進化型ニューラルネットによるサッカーエジェントの創発的設計"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)
- 関連する報告書
  2001 実績報告書
[文献書誌] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)
- 関連する報告書
  2001 実績報告書
[文献書誌] Isao ONO,: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proceedings of the 2000 Genetic and Evolutionary Conference. 203-210 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Isao ONO,: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proceedings of the 2000 Congress on Evolutionary Computation. 659-666 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 山元隆行,: "非同期型マルチエージェント強化学習問題への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. (2001)
- 関連する報告書
  2000 実績報告書
[文献書誌] 中原利和,: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
- 関連する報告書
  2000 実績報告書
[文献書誌] 山下裕志,: "異種エージェントによる対戦型ゲーム政策の共進化的獲得に関する実験的考察"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
- 関連する報告書
  2000 実績報告書
[文献書誌] 高橋みゆき,: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会講演論文集. (2001)
- 関連する報告書
  2000 実績報告書

状態空間の自動的な圧縮表現に基づくマルチエージェント強化学習手法

研究代表者

小野 典彦 徳島大学, 工学部, 教授 (60194594)

3,600千円 (直接経費: 3,600千円)

報告書

研究成果

[文献書誌] Isao Ono: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proc.2000 Genetic and Evolutionary Conference (GECCO 2000). 203-210 (2000)

説明

関連する報告書

[文献書誌] Isao Ono: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proc.2000 Congress on Evolutionary Computation (CEC2000). 659-666 (2000)

説明

関連する報告書

[文献書誌] Yorikazu Takao: "Constructing Approximation Models Based on Agent-Based Simulations by Genetic Algorithms"Proc.Fourth International Conference on Computational Intelligence and multimedia Applications. 231-235 (2001)

説明

関連する報告書

[文献書誌] 山元 隆行: "非同期型マルチエージント教化学習への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. 21-26 (2001)

説明

関連する報告書

[文献書誌] 中原 利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の自動獲得"第45回システム制御情報学会研究発表講演会論文集. 65-66 (2001)

説明

関連する報告書

[文献書誌] 問口 将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会論文集. (in press). (2002)

説明

関連する報告書

[文献書誌] Isao Ono, Tetsuo Nijo and Norihiko Ono: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proc. 2000 Genetic and Evolutionary Conference )GECCO2000). 203-210 (2000)

説明

関連する報告書

[文献書誌] Isao Ono, Miyuki Takahashi and Norihiko Ono: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA Using Unimodal Normal Distribution Crossover"Proc. 2000 Congress on Evolutionary Computation )CEC2000). 659-666 (2000)

説明

関連する報告書

[文献書誌] Yorikazu Takao, Isao Ono and Norihiko Ono: "Constructing Approximation Models Based on Agent-Based Simulations by Genetic Algorithms"Proc. Fourth International Conference on Computational Intelligence and Multimedia Applications. 231-235 (2001)

説明

関連する報告書

[文献書誌] Takayuki Yamamoto, Yoko Nakanishi, Isao Ono and Norihiko Ono: "Optimization of Asynchronous Multi-agent Systems with Real-Coded uenetic Algorithms )in Japanese)"Proc. 28th SICE Symposium on Intelligent System. 21-26 (2001)

説明

関連する報告書

[文献書誌] Toshikazu Nakahara, Masayuki Maguchi, Isao Ono and Norihiko Ono: "Evolutionary Acquisition of Policies for Soccer Agents with Neural Networks )in Japanese)"Proc. 45th Annual Conference of the Institute of Systems, Control and Information Engineers (ISCIE). 65-66 (2001)

説明

関連する報告書

[文献書誌] Masayuki Maguchi, Norihiko Ono and Isao Ono: "On Co-Evolutionary Acquisition of Effective Policies in Two-Player Competitive Games )in Japanese)"Proc. 46th Annual Conference of the Institute of Systems, Control and Information Engineers )ISCIE). (in press). (2002)

説明

関連する報告書

[文献書誌] 高橋みゆき: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会論文集. 61-62 (2001)

関連する報告書

[文献書誌] 中原利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 63-64 (2001)

関連する報告書

[文献書誌] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得"第45回システム制御情報学会研究発表講演会論文集. 15-16 (2001)

関連する報告書

[文献書誌] 山元隆行: "非同期型マルチエージェント系の進化的設計"第45回システム制御情報学会研究発表講演会論文集. 19-20 (2001)

関連する報告書

[文献書誌] 道辻壮哉: "進化型ニューラルネットによるサッカーエジェントの創発的設計"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)

関連する報告書

[文献書誌] 間口将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会講演論文集. (in press). (2002)

関連する報告書

[文献書誌] Isao ONO,: "A Genetic Algorithm for Automatically Designing Modular Reinforcement Learning Agents"Proceedings of the 2000 Genetic and Evolutionary Conference. 203-210 (2000)

関連する報告書

[文献書誌] Isao ONO,: "Evolving Neural Networks in Environments with Delayed Rewards by A Real-Coded GA using Unimodal Normal Distribution Crossover"Proceedings of the 2000 Congress on Evolutionary Computation. 659-666 (2000)

関連する報告書

[文献書誌] 山元隆行,: "非同期型マルチエージェント強化学習問題への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. (2001)

関連する報告書

[文献書誌] 中原利和,: "ニューラルネット表現を用いたサッカーエージェントの行動政策の進化的獲得"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

関連する報告書

[文献書誌] 山下裕志,: "異種エージェントによる対戦型ゲーム政策の共進化的獲得に関する実験的考察"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

関連する報告書

[文献書誌] 高橋みゆき,: "ニューラルネットエージェントと例題の共進化"第45回システム制御情報学会研究発表講演会講演論文集. (2001)

関連する報告書

小野典彦徳島大学, 工学部, 教授 (60194594)

[文献書誌] 山元隆行: "非同期型マルチエージント教化学習への進化的接近"計測自動制御学会第28回知能システムシンポジウム資料. 21-26 (2001)

[文献書誌] 中原利和: "ニューラルネット表現を用いたサッカーエージェントの行動政策の自動獲得"第45回システム制御情報学会研究発表講演会論文集. 65-66 (2001)

[文献書誌] 問口将行: "対戦型ゲームにおける行動政策の共進化的獲得のための世代交代モデル"第46回システム制御情報学会研究発表講演会論文集. (in press). (2002)