2010 Fiscal Year Annual Research Report

複雑な学習問題に対するPSOに基づく群強化学習法の適用

Research Project

Project/Area Number	22500131
Research Institution	Kyoto Institute of Technology
Principal Investigator	飯間等京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)
Co-Investigator(Kenkyū-buntansha)	黒江康明京都工芸繊維大学, 工芸科学研究科, 教授 (10153397)
Keywords	強化学習 / Particle Swarm Optimization / 群知能
Research Abstract	通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、Particle Swarm Optimization (PSO)の解候補更新手続きに基づいたエージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。本年度は、主として、PSOの基本性能の確認や群強化学習法の情報交換法の検討を行うとともに、観測ノイズが含まれるような問題に対する群強化学習法および連続状態行動空間の複雑な問題に対する群強化学習法を提案した。PSOに基づく群強化学習法では過去に発見した最も良い方策を用いて情報交換を行うが、観測ノイズが含まれると本来は悪い方策が誤って良いと判定される可能性があり、そのような本来は悪い方策を用いて情報を交換することが群強化学習法の性能を低下させてしまう。そこで、最良方策に年齢と寿命の概念を導入し、最良方策を情報交換に用いる度に年齢を1増加させ、年齢が寿命に達したときに最良方策を捨てて、過去のある一定期間で発見した良い方策を最良方策とする方法を提案した。また、連続状態行動空間の複雑な問題を解くために、連続状態行動空間を扱うことができるActor-Critic法を用い、その学習パラメータの値をPSOの更新式で更新する方法を提案し、数値実験を通して提案法が短時間で最適方策を獲得できることを確認した。

Research Products
(6 results)

All 2011 2010

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (3 results)

[Journal Article] Particle Swarm Optimizationによるリカレントスパイキングニューラルネットワークの学習法2010
- Author(s)
  山本昌弘、黒江康明、飯間等
- Journal Title
  
  計測自動制御学会論文集
  
  Volume: 46 Pages: 685-691
- Peer Reviewed
[Journal Article] Swarm Reinforcement Learning Method Based on Ant Colony Optimization2010
- Author(s)
  Hitoshi Iima, Yasuaki Kuroe, Shoko Matsuda
- Journal Title
  
  Proceedings of IEEE International Conference on Systems, Man and Cybernetics
  
  Volume: 1 Pages: 1726-1733
- Peer Reviewed
[Journal Article] Swarm Reinforcement Learning Method Based on an Actor-Critic Method2010
- Author(s)
  Hitoshi Iima, Yasuaki Kuroe
- Journal Title
  
  Proceedings of Eighth International Conference on Simulated Evolution and Learning
  
  Volume: 1
- Peer Reviewed
[Presentation] 様々な発火パターンを実現するParticle Swarm Optimizationによるスパイキングニューラルネットワークの学習法2011
- Author(s)
  山本昌弘
- Organizer
  第38回知能システムシンポジウム
- Place of Presentation
  神戸
- Year and Date
  2011-03-17
[Presentation] 繰り返しN人囚人のジレンマ問題の群強化学習による解法2010
- Author(s)
  山分翔太
- Organizer
  第20回インテリジェントシステム・シンポジウム
- Place of Presentation
  東京
- Year and Date
  2010-09-25
[Presentation] 寿命のある自己最良値を用いたParticle Swarm Optimizationに基づく群強化学習法2010
- Author(s)
  飯間等
- Organizer
  第54回システム制御情報学会研究発表講演会
- Place of Presentation
  京都
- Year and Date
  2010-05-19

2010 Fiscal Year Annual Research Report

複雑な学習問題に対するPSOに基づく群強化学習法の適用

Principal Investigator

飯間 等 京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)

Research Products

[Journal Article] Particle Swarm Optimizationによるリカレントスパイキングニューラルネットワークの学習法2010

Author(s)

Journal Title

[Journal Article] Swarm Reinforcement Learning Method Based on Ant Colony Optimization2010

Author(s)

Journal Title

[Journal Article] Swarm Reinforcement Learning Method Based on an Actor-Critic Method2010

Author(s)

Journal Title

[Presentation] 様々な発火パターンを実現するParticle Swarm Optimizationによるスパイキングニューラルネットワークの学習法2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 繰り返しN人囚人のジレンマ問題の群強化学習による解法2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 寿命のある自己最良値を用いたParticle Swarm Optimizationに基づく群強化学習法2010

Author(s)

Organizer

Place of Presentation

Year and Date

飯間等京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)