2012 年度実績報告書

複雑な学習問題に対するＰＳＯに基づく群強化学習法の適用

研究課題

研究課題/領域番号	22500131
研究機関	京都工芸繊維大学
研究代表者	飯間等京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)
研究分担者	黒江康明京都工芸繊維大学, 工芸科学研究科, 教授 (10153397)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	強化学習 / PSO / 群知能
研究概要	通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、複雑な問題として連続状態行動空間を有する制御系設計問題および多目的強化学習問題を取り上げ、これらの問題に対して短時間で学習を行うためにエージェントと環境の組を複数用意し、各エージェントが通常の強化学習法で個別に学習を行うとともに、Particle Swarm Optimization(PSO)の解候補更新手続きに基づいた情報交換によっても学習を行う群強化学習法の開発を試みた。本年度は、まず連続状態行動空間を有する問題に対する群強化学習法を提案し、二足歩行ロボット制御問題に提案方法を適用した。この方法では基底関数に基づく関数近似法を用いて学習を行うが、基底関数を用いると以前に提案した情報交換法を適用できない問題が発生した。そこで、基底関数を用いた群強化学習における情報交換法を新たに提案した。また、ロボット制御問題では複数の行動を決定する場合があり、このような場合にマルチエージェント強化学習の考え方を取り入れることが可能である。そこで、マルチエージェント強化学習の代表的な問題であるジレンマ問題およびフォーメーション形成問題に対する群強化学習法を提案した。最後に、多目的強化学習問題に対する群強化学習法を開発するために、群強化学習法の個別学習で利用できる強化学習法を提案した。提案した方法で得られる方策はパレート最適方策であることを理論的に示すとともに、提案方法によって複数存在する全てのパレート最適方策を発見できることを数値実験により示した。
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(8件)

すべて 2013 2012

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (5件)

[雑誌論文] マルチエージェントタスクに対する群強化学習法－ジレンマ問題の解法－2013
- 著者名/発表者名
  山分翔太
- 雑誌名
  
  計測自動制御学会論文集
  
  巻: 49 ページ: 370-377
- DOI
  10.9746/sicetr.49.370
- 査読あり
[雑誌論文] 連続状態行動空間を有する問題に対する群強化学習法2012
- 著者名/発表者名
  飯間等、黒江康明
- 雑誌名
  
  計測自動制御学会論文集
  
  巻: 48巻ページ: 790-798
- DOI
  DOI:10.9746/sicetr.48.790
- 査読あり
[雑誌論文] Multi-Objective Reinforcement Learning Method for Acquiring All Pareto Optimal Policies Simultaneously2012
- 著者名/発表者名
  Yusuke Mukai
- 雑誌名
  
  Proceedings of 2012 IEEE International Conference on Systems, Man and Cybernetics
  
  巻: 1 ページ: 1917-1923
- 査読あり
[学会発表] Particle Swarm Optimizationに基づくタイルコーディングを用いた強化学習法2013
- 著者名/発表者名
  伊藤　洋
- 学会等名
  第40回知能システムシンポジウム
- 発表場所
  京都工芸繊維大学
- 年月日
  20130314-20130315
[学会発表] 優越関係を用いたすべてのパレート最適方策を同時に獲得する多目的強化学習法2013
- 著者名/発表者名
  向井悠祐
- 学会等名
  第40回知能システムシンポジウム
- 発表場所
  京都工芸繊維大学
- 年月日
  20130314-20130315
[学会発表] あるクラスのジレンマ問題に対するマルチエージェント強化学習法2013
- 著者名/発表者名
  高尾　晃
- 学会等名
  第40回知能システムシンポジウム
- 発表場所
  京都工芸繊維大学
- 年月日
  20130314-20130315
[学会発表] 複数ロボットのフォーメーション形成問題に対する群強化学習法とその評価2012
- 著者名/発表者名
  飯間　等
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2012
- 発表場所
  ウィルあいち
- 年月日
  20121121-20121123
[学会発表] 複数ロボットのフォーメーション形成問題に対する群強化学習法2012
- 著者名/発表者名
  飯間　等
- 学会等名
  第22回インテリジェント・システム・シンポジウム
- 発表場所
  てだこホール
- 年月日
  20120830-20120831

2012 年度 実績報告書

複雑な学習問題に対するＰＳＯに基づく群強化学習法の適用

研究代表者

飯間 等 京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)

理由

研究成果

[雑誌論文] マルチエージェントタスクに対する群強化学習法－ジレンマ問題の解法－2013

著者名/発表者名

雑誌名

DOI

[雑誌論文] 連続状態行動空間を有する問題に対する群強化学習法2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multi-Objective Reinforcement Learning Method for Acquiring All Pareto Optimal Policies Simultaneously2012

著者名/発表者名

雑誌名

[学会発表] Particle Swarm Optimizationに基づくタイルコーディングを用いた強化学習法2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 優越関係を用いたすべてのパレート最適方策を同時に獲得する多目的強化学習法2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] あるクラスのジレンマ問題に対するマルチエージェント強化学習法2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 複数ロボットのフォーメーション形成問題に対する群強化学習法とその評価2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 複数ロボットのフォーメーション形成問題に対する群強化学習法2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実績報告書

飯間等京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)